-
公开(公告)号:CN117012178B
公开(公告)日:2024-11-01
申请号:CN202310954803.X
申请日:2023-07-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置,该方法包括:从目标视频中提取目标音频,以及提取目标音频对应的目标文本;利用预训练的音频文本对齐模型,对目标音频和目标文本进行字级别的对齐处理,得到对齐结果;基于对齐结果,对目标音频进行特征提取处理,从而得到目标文本中的各个字分别对应的音频特征;利用预设的关联于多个韵律标签的韵律识别规则,基于音频特征确定各个字分别对应的韵律标签;在目标文本中为各个字分别标注识别的韵律标签,并将标注后的目标文本作为韵律标注数据。
-
公开(公告)号:CN116978354B
公开(公告)日:2024-04-30
申请号:CN202310963940.X
申请日:2023-08-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/047
Abstract: 本说明书实施例提供了韵律预测模型的训练方法及装置、语音合成方法及装置。该训练方法包括:利用韵律预测模型包括的编码器对样本字符序列进行编码处理,得到编码结果;利用切分值预测网络处理该编码结果,从而针对各相邻字符之间的各位置,预测得到在该位置处进行语义切分的切分值;基于各位置的切分值,生成表征样本字符序列的句法的第一句法二叉树;利用预训练的结构化语言模型,针对样本字符序列生成第二句法二叉树;基于第一句法二叉树和第二句法二叉树,确定结构损失;以最小化总预测损失为目标,调整该编码器的参数;其中,总预测损失基于结构损失确定、且与结构损失正相关。
-
公开(公告)号:CN116978354A
公开(公告)日:2023-10-31
申请号:CN202310963940.X
申请日:2023-08-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/047
Abstract: 本说明书实施例提供了韵律预测模型的训练方法及装置、语音合成方法及装置。该训练方法包括:利用韵律预测模型包括的编码器对样本字符序列进行编码处理,得到编码结果;利用切分值预测网络处理该编码结果,从而针对各相邻字符之间的各位置,预测得到在该位置处进行语义切分的切分值;基于各位置的切分值,生成表征样本字符序列的句法的第一句法二叉树;利用预训练的结构化语言模型,针对样本字符序列生成第二句法二叉树;基于第一句法二叉树和第二句法二叉树,确定结构损失;以最小化总预测损失为目标,调整该编码器的参数;其中,总预测损失基于结构损失确定、且与结构损失正相关。
-
公开(公告)号:CN117095672B
公开(公告)日:2024-07-30
申请号:CN202310855500.2
申请日:2023-07-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40
Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置,所述方法的输入数据包括文本数据和与其对应的音频数据,将文本数据和音频数据输入到对齐模块中进行对齐,得到文本数据中任一文本单位所对应的音频片段和时间段。然后,使用预先配置好的文本‑口型字典,根据文本单位获得对应的口型信息;根据音频片段的特定音频特征获取该口型对应的幅度信息,综合口型信息和幅度信息,便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后,得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作,实现不同唇形之间的过渡,得到最终的平滑唇形序列。
-
公开(公告)号:CN117095672A
公开(公告)日:2023-11-21
申请号:CN202310855500.2
申请日:2023-07-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40
Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置,所述方法的输入数据包括文本数据和与其对应的音频数据,将文本数据和音频数据输入到对齐模块中进行对齐,得到文本数据中任一文本单位所对应的音频片段和时间段。然后,使用预先配置好的文本‑口型字典,根据文本单位获得对应的口型信息;根据音频片段的特定音频特征获取该口型对应的幅度信息,综合口型信息和幅度信息,便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后,得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作,实现不同唇形之间的过渡,得到最终的平滑唇形序列。
-
公开(公告)号:CN118410789A
公开(公告)日:2024-07-30
申请号:CN202410425777.6
申请日:2024-04-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/20 , G06N3/08 , G06N3/045 , G06N3/0442 , G06F18/24
Abstract: 本公开提供一种多音字的读音预测方法和系统,包括:获得待预测文本,待预测文本包括待预测多音字,从预先训练的各模型信息中,获得与待预测多音字对应的目标模型信息,其中,目标模型信息包括目标微调参数矩阵和目标分类器,根据预设编码器和目标模型信息确定与待预测文本对应的目标读音预测结果,目标读音预测结果包括与待预测多音字对应的目标读音,预测系统在对预测待预测文本进行读音预测的情况下,共享预设编码器,调用专属的目标模型信息,以结合预设编码器和目标模型信息确定待预测文本中的多音字的目标读音,可以提高对多音字预测的准确性,进而可以提高对待预测文本的读音预测的准确性和可靠性。
-
公开(公告)号:CN117012178A
公开(公告)日:2023-11-07
申请号:CN202310954803.X
申请日:2023-07-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置,该方法包括:从目标视频中提取目标音频,以及提取目标音频对应的目标文本;利用预训练的音频文本对齐模型,对目标音频和目标文本进行字级别的对齐处理,得到对齐结果;基于对齐结果,对目标音频进行特征提取处理,从而得到目标文本中的各个字分别对应的音频特征;利用预设的关联于多个韵律标签的韵律识别规则,基于音频特征确定各个字分别对应的韵律标签;在目标文本中为各个字分别标注识别的韵律标签,并将标注后的目标文本作为韵律标注数据。
-
-
-
-
-
-