-
公开(公告)号:CN119091923B
公开(公告)日:2025-02-07
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN119091923A
公开(公告)日:2024-12-06
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN118366479B
公开(公告)日:2024-08-27
申请号:CN202410788551.2
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于持续强化学习的语音攻防博弈自反馈方法及装置,可以应用于人工智能技术领域。该方法包括:将从数据集中获取的样本数据输入到对抗样本生成子模型中,利用对抗样本生成策略对样本数据进行处理,生成语音样本;在语音样本通过质量评估的情况下,将语音样本输入到语音鉴别子模型中,输出对语音样本的鉴别结果;对比鉴别结果与语音样本的真实标签,得到对比结果,对比结果用于反馈调节对抗样本生成策略;在对比结果表征鉴别结果与语音样本的真实标签不同的情况下,将语音样本存储到增量样本集中,并利用持续学习子模型基于增量样本集对语音鉴别子模型进行增量训练。
-
公开(公告)号:CN118366478A
公开(公告)日:2024-07-19
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118016051B
公开(公告)日:2024-07-19
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN118016051A
公开(公告)日:2024-05-10
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN117894320A
公开(公告)日:2024-04-16
申请号:CN202410299729.7
申请日:2024-03-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及声纹识别技术领域,提出了一种面向复杂信道的声纹识别方法、装置、介质和程序产品,面向复杂信道的声纹识别方法包括:获取第一训练数据集和第一模型;基于第一训练数据集和第一模型,确定正交投影矩阵;基于第一训练数据集和第一模型,确定重要性矩阵;根据正交投影矩阵,确定方向约束参数;根据重要性矩阵,确定幅度约束参数;基于方向约束参数和幅度约束参数,对第一模型进行模型训练,以得到第二模型,基于第二模型,对语音数据进行识别,确定语音数据的声纹信息。
-
公开(公告)号:CN116884391B
公开(公告)日:2023-12-01
申请号:CN202311144835.X
申请日:2023-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置,所述方法包括:响应于接收到用于生成音频的信息,确定与信息的类型对应的、预先训练好的编码器,其中,不同类型的信息分别对应的编码器通过对比联合训练得到;将用于生成音频的信息输入预先训练好的编码器,得到嵌入特征;将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型,生成与嵌入特征对应的音频,在本公开中,不同类型的信息分别对应的编码器通过对比联合训练得到,在有限的数据集中训练出的编码器,能够输出合理的模态融合信息,从而更加准确地生成音频。
-
公开(公告)号:CN116386602A
公开(公告)日:2023-07-04
申请号:CN202310624720.4
申请日:2023-05-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机技术领域,具体而言涉及一种特征提取模型的训练方法和融合发音特征的语音鉴别方法,其中特征提取模型的训练方法包括:获取训练样本;根据训练样本对特征提取模型进行训练,生成训练数据;将训练数据分别输入到至少两个解码器中,生成至少两个预测音素序列;根据至少两个预测音素序列和训练样本,确定至少两个损失值;根据至少两个损失值,确定训练损失;根据训练损失,更新特征提取模型的参数。
-
公开(公告)号:CN115798453A
公开(公告)日:2023-03-14
申请号:CN202111059801.1
申请日:2021-09-10
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G10L13/027 , G10L15/02 , G10L15/06 , G10L15/20
Abstract: 本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。
-
-
-
-
-
-
-
-
-