-
公开(公告)号:CN115938390A
公开(公告)日:2023-04-07
申请号:CN202310017442.6
申请日:2023-01-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种生成语音鉴别模型的连续学习方法、装置和电子设备,生成语音鉴别模型的连续学习方法包括:获取源数据集,根据源数据集,确定第一数据模型;获取目标数据集,根据目标数据集,对第一数据模型进行梯度修正,以得到第二数据模型;对第二数据模型进行正则化修正,以得到目标数据模型。
-
公开(公告)号:CN114420100B
公开(公告)日:2022-06-21
申请号:CN202210321299.5
申请日:2022-03-30
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。
-
公开(公告)号:CN114495898A
公开(公告)日:2022-05-13
申请号:CN202210395964.5
申请日:2022-04-15
Applicant: 中国科学院自动化研究所
IPC: G10L13/02 , G10L13/027 , G10L13/08
Abstract: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。
-
公开(公告)号:CN114155875B
公开(公告)日:2022-05-03
申请号:CN202210120276.8
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
-
公开(公告)号:CN114420100A
公开(公告)日:2022-04-29
申请号:CN202210321299.5
申请日:2022-03-30
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。
-
公开(公告)号:CN114267363A
公开(公告)日:2022-04-01
申请号:CN202210201797.6
申请日:2022-03-03
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
-
公开(公告)号:CN113920989B
公开(公告)日:2022-04-01
申请号:CN202111516645.7
申请日:2021-12-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。
-
公开(公告)号:CN113724693B
公开(公告)日:2022-04-01
申请号:CN202111281413.8
申请日:2021-11-01
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音判别方法、装置、电子设备及存储介质,上述方法包括:获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。采用上述技术手段,解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题。
-
公开(公告)号:CN113724686B
公开(公告)日:2022-04-01
申请号:CN202111292710.2
申请日:2021-11-03
Applicant: 中国科学院自动化研究所
IPC: G10L13/033 , G10L19/16 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。
-
公开(公告)号:CN113948085B
公开(公告)日:2022-03-25
申请号:CN202111577269.2
申请日:2021-12-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。
-
-
-
-
-
-
-
-
-