一种细粒度韵律建模的语音生成模型、设备及存储介质

    公开(公告)号:CN114093342A

    公开(公告)日:2022-02-25

    申请号:CN202210078586.8

    申请日:2022-01-24

    Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

    篡改音频的篡改区域检测方法、装置及存储介质

    公开(公告)号:CN113555037B

    公开(公告)日:2022-01-11

    申请号:CN202111103012.3

    申请日:2021-09-18

    Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。

    一种语音鉴伪与说话人识别联合建模的方法

    公开(公告)号:CN113555023B

    公开(公告)日:2022-01-11

    申请号:CN202111098690.5

    申请日:2021-09-18

    Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定说话人识别网络的目标函数;定义语音鉴伪网路的目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个函数进行联合优化。

    编辑音频的方法、装置、电子设备及存储介质

    公开(公告)号:CN113724686A

    公开(公告)日:2021-11-30

    申请号:CN202111292710.2

    申请日:2021-11-03

    Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。

    一种语音鉴伪与说话人识别联合建模的方法

    公开(公告)号:CN113555023A

    公开(公告)日:2021-10-26

    申请号:CN202111098690.5

    申请日:2021-09-18

    Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

    一种融合组合模型信息的语音鉴别模型压缩方法

    公开(公告)号:CN113362814A

    公开(公告)日:2021-09-07

    申请号:CN202110910114.X

    申请日:2021-08-09

    Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。

    基于音素时长特征的虚假语音检测方法及装置

    公开(公告)号:CN113284513A

    公开(公告)日:2021-08-20

    申请号:CN202110841276.2

    申请日:2021-07-26

    Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。

    多发音人语音合成方法、系统及装置

    公开(公告)号:CN110335588A

    公开(公告)日:2019-10-15

    申请号:CN201910563533.3

    申请日:2019-06-26

    Abstract: 本发明涉及一种多发音人语音合成方法及系统,所述合成方法包括:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;基于文本分析方法,从待测文本中提取文本特征;将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。本发明将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。

    语音控制方法、装置、电子设备及存储介质

    公开(公告)号:CN113436629B

    公开(公告)日:2024-06-04

    申请号:CN202110997178.8

    申请日:2021-08-27

    Abstract: 本申请涉及一种语音控制方法、装置、电子设备及存储介质,所述语音控制方法,包括以下步骤:获取已知唤醒词的音节;确定与所述唤醒词对应的非唤醒词的音节;根据所述唤醒词的音节、所述非唤醒词的音节和预设的垃圾词信息构建唤醒词解码网络,以根据所述唤醒词解码网络对输入的语音进行解码,并根据解码结果确定是否执行唤醒操作,本申请在解码网络中引入非唤醒词的音节从而统一描述非唤醒词,能够降低非唤醒词引起的误唤醒率。

    语音检测方法及装置、电子设备及存储介质

    公开(公告)号:CN114420100B

    公开(公告)日:2022-06-21

    申请号:CN202210321299.5

    申请日:2022-03-30

    Abstract: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。

Patent Agency Ranking