-
公开(公告)号:CN119007706A
公开(公告)日:2024-11-22
申请号:CN202410801337.6
申请日:2024-06-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/08 , G10L13/10 , G10L13/02 , G10L13/047 , G10L13/04
Abstract: 本说明书实施例公开了一种训练文本转语音模型、文本转语音的方法、装置及设备。重新定义了文本转语音模型的输入数据的构成,输入数据不仅包括已插入韵律符号的文本对应的音素序列,也包括能够表示文本在至少一个粒度层级上的结构划分的结构标注信息,从而使得文本转语音模型在进行语音特征预测的过程中,不仅可以参考文本在音素层面的韵律,而且还可以参考文本在单字词、短语、语句等粒度层面上的韵律,这样可以使得预测出的语音特征所得到的语音韵律具有文本结构上发音的连贯性,韵律更加自然。需要说明,本公开属于人工智能领域的技术方案,在方案实现时,所使用的隐私数据已经得到所有方授权。
-
公开(公告)号:CN118506761A
公开(公告)日:2024-08-16
申请号:CN202410535643.X
申请日:2024-04-29
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提供了一种语音克隆模型训练及语音克隆方法、装置、设备、介质,涉及人工智能技术领域。该语音克隆模型训练方法包括:获取输入文本序列、参考语音数据和真实语音数据,将参考语音数据和真实语音数据输入到语音克隆模型的音色模拟网络中,提取说话对象音色嵌入特征,将说话对象音色嵌入特征融合到语音合成网络中,以及通过输入文本序列、参考语音数据和真实语音数据对语音合成网络进行模型训练,直到语音合成网络和音色模拟网络收敛,得到训练好的语音克隆模型。本技术方案能够实现端到端的语音合成,不需要大量语音数据即可实现未知说话人的音色克隆,降低语音克隆模型的训练成本,提升语音克隆模型生成的语音的质量。
-
公开(公告)号:CN116312490A
公开(公告)日:2023-06-23
申请号:CN202310162683.X
申请日:2023-02-23
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了多音字发音的预测方法和装置。该方法包括:得到需要向用户播放的交互内容;将该交互内容输入预先训练的韵律预测模型中,由该韵律预测模型输出带有韵律标签的交互内容;其中,韵律标签用于指示发音时的停顿;针对该交互内容中由各韵律标签分割出的每一个内容单元,检测该内容单元中是否包括多音字,如果包括,则根据该内容单元的上下文得到被包括的该多音字在该内容单元中的发音。本说明书实施例能够使得机器设备准确地确定出多音字的发音,并提高机器设备的处理效率。
-
公开(公告)号:CN114495982A
公开(公告)日:2022-05-13
申请号:CN202210068338.5
申请日:2022-01-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L25/51 , G10L15/26 , G10L15/04 , G10L21/0272
Abstract: 本说明书实施例提供了一种风险检测方法、装置及设备,所述方法包括:获取待检测的目标语音流,并对所述目标语音流进行说话人分离处理,确定所述目标语音流对应的说话人信息;基于所述说话人信息,将所述目标语音流分割成与说话人对应的多个目标语音片段,并对所述目标语音片段进行文本转换处理,得到对应的目标文本数据;基于预先构建的风险文本库中的风险文本数据,对所述目标文本数据进行风险检测,得到针对所述目标语音片段的风险检测结果;基于所述说话人信息和所述目标文本数据的风险检测结果,确定所述目标语音流是否为存在风险的语音流。
-
公开(公告)号:CN113299295A
公开(公告)日:2021-08-24
申请号:CN202110513396.X
申请日:2021-05-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将该声学特征输入声纹编码网络,得到第一编码向量;确定第一训练损失,其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离;基于第一训练损失和第二训练损失,训练声纹编码网络和类别权重向量。
-
公开(公告)号:CN117219054A
公开(公告)日:2023-12-12
申请号:CN202311411597.4
申请日:2023-10-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请实施例提供一种音素序列生成方法、语音合成方法及相关产品,涉及语音合成领域,音素序列生成方法包括:将待进行语音合成的目标文本输入到韵律预测模型中,得到所述目标文本的第一韵律标签;根据韵律固定词表,确定所述目标文本中的韵律固定搭配词语;根据所述目标文本中的韵律固定搭配词语,对所述目标文本的第一韵律标签进行矫正,得到所述目标文本的第二韵律标签;其中,所述第二韵律标签标识的韵律边界在对所述目标文本划分韵律单元时,使所述韵律固定搭配词语被划分为一个韵律单元;根据所述目标文本的第二韵律标签以及所述目标文本中各汉字的注音,生成所述目标文本的音素序列,该方法能够提高音素序列的生成准确度和错误修复效率。
-
公开(公告)号:CN116504268A
公开(公告)日:2023-07-28
申请号:CN202310447588.4
申请日:2023-04-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种业务风控的方法、装置、存储介质以及电子设备,用于隐私保护,将各用户在执行业务时的各语音数据输入到预设的声纹特征模型中,以提取出每个语音数据的声纹特征。将每个语音数据的声纹特征以及每个语音数据对应的第一关联相似度输入到预设的聚类模型中,以对各声纹特征进行聚类,得到各初始聚类簇。针对每个语音数据,确定该语音数据的声纹特征相匹配的初始聚类簇,作为目标簇,从目标簇中确定出第二关联声纹特征,并确定该语音数据对应的第二关联相似度。根据每个语音数据对应的第二关联相似度,调整初始聚类结果,得到最终聚类结果,判断是否存在归属于同一聚类簇但出自不同用户账户的语音数据,根据判断结果,执行业务风控。
-
公开(公告)号:CN111712874B
公开(公告)日:2023-07-14
申请号:CN201980011206.5
申请日:2019-10-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 提供了用于确定声音特性的方法、系统、装置和存储介质,包括编码在计算机存储介质上的计算机程序。方法之一包括:获得说话者的语音数据;将所述语音数据输入到至少通过联合地最小化第一损失函数和第二损失函数而训练的模型中,其中,所述第一损失函数包括基于非采样的损失函数,所述第二损失函数包括具有非单位多元协方差矩阵的高斯混合损失函数;以及从经训练模型中获得所述说话者的一个或多个声音特性。
-
公开(公告)号:CN119446127A
公开(公告)日:2025-02-14
申请号:CN202411181692.4
申请日:2024-08-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L15/06 , G10L15/16 , G10L21/0208 , G10L25/24 , G06F18/23
Abstract: 本说明书实施例公开了一种语音预训练模型的训练方法及装置、介质、设备,首先,获取样本语音数据,并对所述样本语音数据进行特征提取,得到初始语音声学特征;对初始语音声学特征进行模糊聚类处理,得到语音特征聚类分布;基于语音特征聚类分布对预构建的语音预训练模型进行自监督训练,得到训练好的语音预训练模型。本技术方案通过模糊聚类这种软聚类方式,可以使语音预训练模型更加关注语音的连续性,克服了常用的硬聚类方式导致连续语音被硬性划分的缺点;以及将软聚类结果用于语音预训练模型的自监督学习,有效提升语音预训练模型的泛化能力。
-
公开(公告)号:CN118098215A
公开(公告)日:2024-05-28
申请号:CN202410327948.1
申请日:2024-03-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L15/06 , G10L19/022
Abstract: 本说明书实施例公开了一种音频识别模型训练方法、装置、存储介质及电子设备,首先获取训练样本,分别将样本音频和样本音频的关联文本输入语音模型和文本模型,得到样本音频特征和样本文本特征;之后,对样本音频特征和样本文本特征进行融合,得到融合特征;在此基础上,根据融合特征生成实际类别信息,根据音频类别信息和实际类别信息,调整语音模型和文本模型的参数。
-
-
-
-
-
-
-
-
-