-
公开(公告)号:CN115470351A
公开(公告)日:2022-12-13
申请号:CN202211117014.2
申请日:2022-09-14
Applicant: 出门问问信息科技有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G10L13/10
Abstract: 本申请提供了一种韵律模型的构建方法和装置、韵律标注方法、电子设备,包括:获取输入数据,以及各个前序分类器对输入数据中训练文本的前序标注文本,其中输入数据的韵律等级高于各个前序分类器对应的韵律等级;基于输入数据和多个前序标注文本,对初始分类器进行参数调整,以获得目标分类器;以及整合各个前序分类器和目标分类器,获得韵律模型。
-
公开(公告)号:CN111078898A
公开(公告)日:2020-04-28
申请号:CN201911374465.2
申请日:2019-12-27
Applicant: 出门问问信息科技有限公司
IPC: G06F16/36
Abstract: 本发明公开了一种多音字标注方法、装置以及计算机可读存储介质,所述方法包括:获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;从歧义规则词库中获取对应于所述多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对所述多音字进行读音标注。通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
-
公开(公告)号:CN115470350A
公开(公告)日:2022-12-13
申请号:CN202211116335.0
申请日:2022-09-14
Applicant: 出门问问信息科技有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G10L13/10
Abstract: 本申请提供了一种韵律模型的构建方法和装置、韵律标注方法、电子设备和可读存储介质,该构建方法包括:获取输入数据的预测提示,其中预测提示用于指示对输入数据执行韵律标注时的韵律等级;基于预测提示,对输入数据进行韵律标注,获得具有预测提示中韵律等级的韵律标注文本;以及根据韵律标注文本与输入数据的预期标注文本之间的标注误差,对分类器进行参数调整,以获得使标注误差处于期望误差范围的韵律模型。本申请克服了对输入数据中预期标注文本的完整性的依赖,降低了输入数据的获取难度。
-
公开(公告)号:CN111178042B
公开(公告)日:2023-04-28
申请号:CN201911409695.8
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G06F40/205 , G10L13/10
Abstract: 本发明实施例公开了一种数据处理方法、装置及计算机存储介质,方法包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。本发明实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。
-
公开(公告)号:CN116013251A
公开(公告)日:2023-04-25
申请号:CN202211704212.9
申请日:2022-12-29
Applicant: 出门问问信息科技有限公司
IPC: G10L13/08 , G10L13/047 , G10L13/04 , G10L25/30
Abstract: 本公开提供了一种声频模拟方法、装置、设备及存储介质,所述方法包括:获取第一文本对应的第一音素信息,将所述第一音素级信息编码为语言表示;获取第一文本对应的第一文本信息,将所述第一文本信息编码为文本特征表示;基于语音合成模型中的声学特征和所述第一文本对应的文本特征表示,为所述第一音素级信息编码的语言表示添加声学特征,将添加了声学特征的所述第一音素级信息编码的语言表示通过解码器预测梅尔频谱进行音频输出。
-
公开(公告)号:CN111178042A
公开(公告)日:2020-05-19
申请号:CN201911409695.8
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G06F40/205 , G10L13/10
Abstract: 本发明实施例公开了一种数据处理方法、装置及计算机存储介质,方法包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。本发明实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。
-
公开(公告)号:CN111079428A
公开(公告)日:2020-04-28
申请号:CN201911374500.0
申请日:2019-12-27
Applicant: 出门问问信息科技有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/216
Abstract: 本发明公开了一种分词和行业词典构建方法、装置以及可读存储介质,包括:获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
-
公开(公告)号:CN115547289A
公开(公告)日:2022-12-30
申请号:CN202211142609.3
申请日:2022-09-20
Applicant: 出门问问信息科技有限公司
Abstract: 本公开提供了一种语音合成方法、装置、电子设备及存储介质,所述方法包括:确定用于语音合成的原始语料;从所述原始语料中提取文本对话表现力,所述文本对话表现力包括对话意向和对话风格;基于所述文本对话表现力确定文本对话风格特征;将所述文本对话风格特征输入至语音合成模型,基于所述语音合成模型输出的梅尔频谱,确定所述原始语料对应的对话语音。
-
公开(公告)号:CN111145724B
公开(公告)日:2022-08-19
申请号:CN201911421542.5
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G10L13/08 , G10L13/02 , G06F40/117 , G06F40/247 , G06F40/284
Abstract: 本发明公开了一种多音字标注方法、装置以及计算机可读存储介质,包括:获取多音字;对所获取的多音字进行读音预判,得到对应于所述多音字的读音和置信度;根据所得到的置信度,展示所述多音字和对应的读音,并指示用户确定对应所述多音字的读音;根据所确定的读音,确定是否将所述多音字标注为用户所确定的读音。由此,通过将经读音预判所得到的读音展示于用户,然后根据用户的指示进一步来设定多音字的读音,从而提高了读音标注的准确度。
-
公开(公告)号:CN111145724A
公开(公告)日:2020-05-12
申请号:CN201911421542.5
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
IPC: G10L13/08 , G10L13/02 , G06F40/117 , G06F40/247 , G06F40/284
Abstract: 本发明公开了一种多音字标注方法、装置以及计算机可读存储介质,包括:获取多音字;对所获取的多音字进行读音预判,得到对应于所述多音字的读音和置信度;根据所得到的置信度,展示所述多音字和对应的读音,并指示用户确定对应所述多音字的读音;根据所确定的读音,确定是否将所述多音字标注为用户所确定的读音。由此,通过将经读音预判所得到的读音展示于用户,然后根据用户的指示进一步来设定多音字的读音,从而提高了读音标注的准确度。
-
-
-
-
-
-
-
-
-