-
公开(公告)号:CN113488070A
公开(公告)日:2021-10-08
申请号:CN202111048241.X
申请日:2021-09-08
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种篡改音频的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测信号,并对待检测信号进行第一预设阶数的小波变换,得到数量等于第一预设阶数的待检测信号对应的第一低频系数和第一高频系数;对阶数大于等于第二预设阶数的第一高频系数进行小波逆变换,得到待检测信号对应的第一高频分量信号;以帧为单位计算第一高频分量信号的第一梅尔倒谱特征,并将第一高频分量信号的当前帧信号和当前帧信号之前的预设数量的帧信号的第一梅尔倒谱特征融合,得到第一融合特征;通过深度学习模型对第一融合特征进行篡改音频检测。
-
公开(公告)号:CN113362814A
公开(公告)日:2021-09-07
申请号:CN202110910114.X
申请日:2021-08-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。
-
公开(公告)号:CN113178199B
公开(公告)日:2021-08-31
申请号:CN202110727936.4
申请日:2021-06-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于相位偏移检测的数字音频篡改取证方法,包括:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;应用所述当前帧信号的相位信息计算动态阈值,在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。
-
公开(公告)号:CN113314148A
公开(公告)日:2021-08-27
申请号:CN202110866648.7
申请日:2021-07-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。
-
公开(公告)号:CN113284513A
公开(公告)日:2021-08-20
申请号:CN202110841276.2
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。
-
公开(公告)号:CN118298852A
公开(公告)日:2024-07-05
申请号:CN202410726562.8
申请日:2024-06-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于高频特征的区域生成音频检测与定位方法及装置,应用于音频处理领域。该方法包括:提取待检测音频中目标频率的信号,得到待检测信号;对待检测信号进行分帧处理,得到至少两个待检测帧;针对至少两个待检测帧中的每个待检测帧,将待检测帧分别与至少两个待检测帧中的其他待检测帧进行组合,生成至少一个待检测帧对;将至少一个待检测帧对输入训练好的音频检测与定位模型中,输出至少一个待检测帧对各自对应的相似度;根据至少一个待检测帧对各自对应的相似度,和至少两个待检测帧各自对应的帧时间,从待检测音频中检测和定位生成区段。本发明的方法能够从待检测音频中检测和定位生成区段,解决了难以定位生成区段的问题。
-
公开(公告)号:CN117995165B
公开(公告)日:2024-05-31
申请号:CN202410401340.9
申请日:2024-04-03
Applicant: 中国科学院自动化研究所
IPC: G10L13/08 , G10L13/02 , G10L19/018
Abstract: 本公开涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备,上述方法包括:获取待处理文本和待添加的水印信息;对待处理文本的文本音素序列、水印信息进行特征提取处理,得到位于概率空间的文本音素隐变量和水印隐变量;拼接文本音素隐变量和水印隐变量,得到文本嵌入分布;将文本嵌入分布输入至预先训练好的对齐模型中,输出预测音素时长与语音对齐、并进行语音转换后的预测语音嵌入分布;对预测语音嵌入分布进行映射逆变换和解码处理,得到与待处理文本对应且携带有水印信息的语音合成波形。避免后处理方式添加水印容易被攻击且破解的问题,通过联合优化水印植入和语音合成,能降低水印对于所生成语音质量的负面影响。
-
公开(公告)号:CN117995165A
公开(公告)日:2024-05-07
申请号:CN202410401340.9
申请日:2024-04-03
Applicant: 中国科学院自动化研究所
IPC: G10L13/08 , G10L13/02 , G10L19/018
Abstract: 本公开涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备,上述方法包括:获取待处理文本和待添加的水印信息;对待处理文本的文本音素序列、水印信息进行特征提取处理,得到位于概率空间的文本音素隐变量和水印隐变量;拼接文本音素隐变量和水印隐变量,得到文本嵌入分布;将文本嵌入分布输入至预先训练好的对齐模型中,输出预测音素时长与语音对齐、并进行语音转换后的预测语音嵌入分布;对预测语音嵌入分布进行映射逆变换和解码处理,得到与待处理文本对应且携带有水印信息的语音合成波形。避免后处理方式添加水印容易被攻击且破解的问题,通过联合优化水印植入和语音合成,能降低水印对于所生成语音质量的负面影响。
-
公开(公告)号:CN117351940B
公开(公告)日:2024-03-01
申请号:CN202311655426.6
申请日:2023-12-05
Applicant: 中国科学院自动化研究所
IPC: G10L15/01 , G10L15/06 , G10L15/16 , G10L15/183
Abstract: 本发明涉及一种基于语音大模型的合成语音检测方法及装置,基于语音大模型的合成语音检测方法包括:对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记,构建鉴别任务序列;遍历每一语音合成算法,获取该语音合成算法对应的样本语音的梅尔谱,输入基于前一语音合成算法对应的语音训练模型的编码器,得到隐变量;将隐变量及鉴别任务序列输入基于前一语音合成算法对应的语音训练模型的解码器,获取预测鉴别值;依据预测鉴别值及实际鉴别值,对前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化,在所有合成语音算法遍历完毕后,得到语音大模型。可以提升合成语音检测效率。
-
公开(公告)号:CN117292694B
公开(公告)日:2024-02-27
申请号:CN202311564716.X
申请日:2023-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于时不变编码的少令牌神经语音编解码方法和系统,应用于训练好的神经语音编解码模型,该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器;基于所述编码器对待处理语音进行编码,获得编码器输出层的隐层表示及编码器中间层的中间层表示;基于所述时不变提取器对所述中间层表示进行时不变特征提取,获得时不变表示;基于所述量化器分别对所述隐层表示和时不变表示进行量化,获得帧级别语音令牌和时不变令牌;基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码,获得重构后语音;即通过时不变提取器对语音信号的时不变信息进行单独编码,在更少的语音编码令牌数量时能够实现高质量语音重建。
-
-
-
-
-
-
-
-
-