一种语音鉴伪与说话人识别联合建模的方法

    公开(公告)号:CN113555023A

    公开(公告)日:2021-10-26

    申请号:CN202111098690.5

    申请日:2021-09-18

    Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

    篡改音频的检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113488070A

    公开(公告)日:2021-10-08

    申请号:CN202111048241.X

    申请日:2021-09-08

    Abstract: 本公开涉及一种篡改音频的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测信号,并对待检测信号进行第一预设阶数的小波变换,得到数量等于第一预设阶数的待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的第一高频系数进行小波逆变换,得到待检测信号对应的第一高频分量信号;以帧为单位计算第一高频分量信号的第一梅尔倒谱特征,并将第一高频分量信号的当前帧信号和当前帧信号之前的预设数量的帧信号的第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对第一融合特征进行篡改音频检测。

    一种融合组合模型信息的语音鉴别模型压缩方法

    公开(公告)号:CN113362814A

    公开(公告)日:2021-09-07

    申请号:CN202110910114.X

    申请日:2021-08-09

    Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。

    基于相位偏移检测的数字音频篡改取证方法

    公开(公告)号:CN113178199B

    公开(公告)日:2021-08-31

    申请号:CN202110727936.4

    申请日:2021-06-29

    Abstract: 本发明提供基于相位偏移检测的数字音频篡改取证方法,包括:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;应用所述当前帧信号的相位信息计算动态阈值,在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。

    基于原始波形的轻量级神经网络生成语音鉴别方法和系统

    公开(公告)号:CN113314148A

    公开(公告)日:2021-08-27

    申请号:CN202110866648.7

    申请日:2021-07-29

    Abstract: 本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。

    基于音素时长特征的虚假语音检测方法及装置

    公开(公告)号:CN113284513A

    公开(公告)日:2021-08-20

    申请号:CN202110841276.2

    申请日:2021-07-26

    Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。

    一种基于高频特征的区域生成音频检测与定位方法及装置

    公开(公告)号:CN118298852A

    公开(公告)日:2024-07-05

    申请号:CN202410726562.8

    申请日:2024-06-06

    Abstract: 本发明提供了一种基于高频特征的区域生成音频检测与定位方法及装置,应用于音频处理领域。该方法包括:提取待检测音频中目标频率的信号,得到待检测信号;对待检测信号进行分帧处理,得到至少两个待检测帧;针对至少两个待检测帧中的每个待检测帧,将待检测帧分别与至少两个待检测帧中的其他待检测帧进行组合,生成至少一个待检测帧对;将至少一个待检测帧对输入训练好的音频检测与定位模型中,输出至少一个待检测帧对各自对应的相似度;根据至少一个待检测帧对各自对应的相似度,和至少两个待检测帧各自对应的帧时间,从待检测音频中检测和定位生成区段。本发明的方法能够从待检测音频中检测和定位生成区段,解决了难以定位生成区段的问题。

    基于隐变量空间添加水印的语音合成方法、装置及设备

    公开(公告)号:CN117995165B

    公开(公告)日:2024-05-31

    申请号:CN202410401340.9

    申请日:2024-04-03

    Abstract: 本公开涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备,上述方法包括:获取待处理文本和待添加的水印信息;对待处理文本的文本音素序列、水印信息进行特征提取处理,得到位于概率空间的文本音素隐变量和水印隐变量;拼接文本音素隐变量和水印隐变量,得到文本嵌入分布;将文本嵌入分布输入至预先训练好的对齐模型中,输出预测音素时长与语音对齐、并进行语音转换后的预测语音嵌入分布;对预测语音嵌入分布进行映射逆变换和解码处理,得到与待处理文本对应且携带有水印信息的语音合成波形。避免后处理方式添加水印容易被攻击且破解的问题,通过联合优化水印植入和语音合成,能降低水印对于所生成语音质量的负面影响。

    基于隐变量空间添加水印的语音合成方法、装置及设备

    公开(公告)号:CN117995165A

    公开(公告)日:2024-05-07

    申请号:CN202410401340.9

    申请日:2024-04-03

    Abstract: 本公开涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备,上述方法包括:获取待处理文本和待添加的水印信息;对待处理文本的文本音素序列、水印信息进行特征提取处理,得到位于概率空间的文本音素隐变量和水印隐变量;拼接文本音素隐变量和水印隐变量,得到文本嵌入分布;将文本嵌入分布输入至预先训练好的对齐模型中,输出预测音素时长与语音对齐、并进行语音转换后的预测语音嵌入分布;对预测语音嵌入分布进行映射逆变换和解码处理,得到与待处理文本对应且携带有水印信息的语音合成波形。避免后处理方式添加水印容易被攻击且破解的问题,通过联合优化水印植入和语音合成,能降低水印对于所生成语音质量的负面影响。

Patent Agency Ranking