-
公开(公告)号:CN113178199A
公开(公告)日:2021-07-27
申请号:CN202110727936.4
申请日:2021-06-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于相位偏移检测的数字音频篡改取证方法,包括:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;应用所述当前帧信号的相位信息计算动态阈值,在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。
-
公开(公告)号:CN106875942B
公开(公告)日:2021-01-22
申请号:CN201611232996.4
申请日:2016-12-28
Applicant: 中国科学院自动化研究所
IPC: G10L15/16 , G10L15/02 , G10L15/06 , G10L15/065 , G10L17/02
Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。
-
公开(公告)号:CN106531157B
公开(公告)日:2019-10-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN119091923B
公开(公告)日:2025-02-07
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN119091923A
公开(公告)日:2024-12-06
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN118366479B
公开(公告)日:2024-08-27
申请号:CN202410788551.2
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于持续强化学习的语音攻防博弈自反馈方法及装置,可以应用于人工智能技术领域。该方法包括:将从数据集中获取的样本数据输入到对抗样本生成子模型中,利用对抗样本生成策略对样本数据进行处理,生成语音样本;在语音样本通过质量评估的情况下,将语音样本输入到语音鉴别子模型中,输出对语音样本的鉴别结果;对比鉴别结果与语音样本的真实标签,得到对比结果,对比结果用于反馈调节对抗样本生成策略;在对比结果表征鉴别结果与语音样本的真实标签不同的情况下,将语音样本存储到增量样本集中,并利用持续学习子模型基于增量样本集对语音鉴别子模型进行增量训练。
-
公开(公告)号:CN118366478A
公开(公告)日:2024-07-19
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118016051B
公开(公告)日:2024-07-19
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN118016051A
公开(公告)日:2024-05-10
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN117894320A
公开(公告)日:2024-04-16
申请号:CN202410299729.7
申请日:2024-03-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及声纹识别技术领域,提出了一种面向复杂信道的声纹识别方法、装置、介质和程序产品,面向复杂信道的声纹识别方法包括:获取第一训练数据集和第一模型;基于第一训练数据集和第一模型,确定正交投影矩阵;基于第一训练数据集和第一模型,确定重要性矩阵;根据正交投影矩阵,确定方向约束参数;根据重要性矩阵,确定幅度约束参数;基于方向约束参数和幅度约束参数,对第一模型进行模型训练,以得到第二模型,基于第二模型,对语音数据进行识别,确定语音数据的声纹信息。
-
-
-
-
-
-
-
-
-