基于预训练语言模型的语音生成方法、装置、设备及介质

    公开(公告)号:CN116364055B

    公开(公告)日:2023-09-01

    申请号:CN202310634393.0

    申请日:2023-05-31

    Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。

    一种统一的语音合成与语音转换的训练方法和系统

    公开(公告)号:CN114495898B

    公开(公告)日:2022-07-01

    申请号:CN202210395964.5

    申请日:2022-04-15

    Abstract: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。

    语音对抗样本生成方法及装置、电子设备及存储介质

    公开(公告)号:CN114267363B

    公开(公告)日:2022-05-24

    申请号:CN202210201797.6

    申请日:2022-03-03

    Abstract: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。

    一种细粒度韵律建模的语音生成装置、设备及存储介质

    公开(公告)号:CN114093342B

    公开(公告)日:2022-05-03

    申请号:CN202210078586.8

    申请日:2022-01-24

    Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

    基于Transformer的标记选择和合并的表情识别方法及系统

    公开(公告)号:CN113705541B

    公开(公告)日:2022-04-01

    申请号:CN202111224946.2

    申请日:2021-10-21

    Abstract: 本发明提供基于Transformer的标记选择和合并的表情识别方法及系统,包括:将图像分割成不重叠的斑块,并通过线性投影映射到一个D维度的特征向量,构成标记嵌入向量;将其输入第一Transformer网络,得到标记特征;动态地加入α参数计算标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络,得到动态标记选择的预测结果;将标记特征进行重塑,得到新的结构化特征,并合并,组成包含上下文特征的标记;将其输入第三Transformer网络编码,得到标记合并的预测结果;取动态标记选择的预测结果和标记合并的预测结果取平均,取阈值最大的为表情识别的结果。

    一种可定制的中英混合语音识别端到端系统

    公开(公告)号:CN113936641B

    公开(公告)日:2022-03-25

    申请号:CN202111548173.3

    申请日:2021-12-17

    Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。

    语音场景篡改鉴别的方法、装置、电子设备及存储介质

    公开(公告)号:CN114155875A

    公开(公告)日:2022-03-08

    申请号:CN202210120276.8

    申请日:2022-02-09

    Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。

Patent Agency Ranking