语音检测方法及装置、电子设备及存储介质

    公开(公告)号:CN114420100B

    公开(公告)日:2022-06-21

    申请号:CN202210321299.5

    申请日:2022-03-30

    Abstract: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。

    一种统一的语音合成与语音转换的训练方法和系统

    公开(公告)号:CN114495898A

    公开(公告)日:2022-05-13

    申请号:CN202210395964.5

    申请日:2022-04-15

    Abstract: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。

    语音场景篡改鉴别的方法、装置、电子设备及存储介质

    公开(公告)号:CN114155875B

    公开(公告)日:2022-05-03

    申请号:CN202210120276.8

    申请日:2022-02-09

    Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。

    语音检测方法及装置、电子设备及存储介质

    公开(公告)号:CN114420100A

    公开(公告)日:2022-04-29

    申请号:CN202210321299.5

    申请日:2022-03-30

    Abstract: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。

    语音对抗样本生成方法及装置、电子设备及存储介质

    公开(公告)号:CN114267363A

    公开(公告)日:2022-04-01

    申请号:CN202210201797.6

    申请日:2022-03-03

    Abstract: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。

    一种语音识别与语音翻译端到端系统及设备

    公开(公告)号:CN113920989B

    公开(公告)日:2022-04-01

    申请号:CN202111516645.7

    申请日:2021-12-13

    Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。

    编辑音频的方法、装置、电子设备及存储介质

    公开(公告)号:CN113724686B

    公开(公告)日:2022-04-01

    申请号:CN202111292710.2

    申请日:2021-11-03

    Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。

    语音识别方法、系统、电子设备和存储介质

    公开(公告)号:CN113948085B

    公开(公告)日:2022-03-25

    申请号:CN202111577269.2

    申请日:2021-12-22

    Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。

Patent Agency Ranking