-
公开(公告)号:CN101064104A
公开(公告)日:2007-10-31
申请号:CN200610076014.7
申请日:2006-04-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种新的基于语音转换的情感语音生成方法,包括训练阶段,对中性语音和情感语音分别提取频谱和基频特征,分别在频谱和基频特征上建立中性语音和情感语音的映射关系,在基频的表示和转换上是基于基频目标模型。对中性语音和情感语音的基频曲线提取模型参数,使用高斯混合模型和分类回归树的方法建立基频目标模型参数间的映射函数;包括生成阶段,同样对要转换的中性语音提取频谱和基频特征,对于基频特征通过利用训练阶段获得的映射函数对基频曲线进行转换,使得转换基频曲线具有情感的特性。最后将转换后的频谱和基频曲线合成为带有相应情感的转换语音。本发明可以用于个性化语音合成、带有表现力的语音合成等多个领域。
-
公开(公告)号:CN1940996A
公开(公告)日:2007-04-04
申请号:CN200510108136.5
申请日:2005-09-29
Applicant: 中国科学院自动化研究所
IPC: G06T17/00
Abstract: 基于正交图像的快速个性化人脸建模方法,包括步骤:利用摄像机拍摄两幅正交人脸图像,即正面人脸图像和侧面人脸图像。对两幅图像进行归一划处理,通过对通用人脸网格模型的投影,得到和正交图像对应的两个方向的投影网格。在人脸图像和投影网格上选择对应的特征点,利用匹配算法求得二者之间的最佳匹配参数,然后对所有的投影网格进行匹配,得到匹配后的网格特征点的位置,并利用径向基函数插值算法对结果进行插值,得到精确的匹配结果。然后从两个匹配后的投影网格恢复其三维信息,得到个性化的人脸网格模型。再对该网格模型进行纹理映射,获得最终的个性化人脸模型。该模型可以用于人脸动画、人脸识别等多个领域。
-
公开(公告)号:CN119091923B
公开(公告)日:2025-02-07
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN119091923A
公开(公告)日:2024-12-06
申请号:CN202411561954.X
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种篡改音频的定位方法及装置,可以应用于计算机技术和音频信号处理技术领域。该篡改音频的定位方法包括:对待检测音频进行特征提取处理,得到第一特征和第二特征,其中,第一特征表征了待检测音频的语音特征,第二特征表征了待检测音频的时序自一致性特征;根据第一特征和第二特征,确定融合特征,其中,融合特征的维度与待检测音频的帧数相同;以及,将融合特征输入至经训练的强化学习网络,得到定位结果,其中,定位结果表征了待检测音频中篡改音频的位置。
-
公开(公告)号:CN118366479B
公开(公告)日:2024-08-27
申请号:CN202410788551.2
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于持续强化学习的语音攻防博弈自反馈方法及装置,可以应用于人工智能技术领域。该方法包括:将从数据集中获取的样本数据输入到对抗样本生成子模型中,利用对抗样本生成策略对样本数据进行处理,生成语音样本;在语音样本通过质量评估的情况下,将语音样本输入到语音鉴别子模型中,输出对语音样本的鉴别结果;对比鉴别结果与语音样本的真实标签,得到对比结果,对比结果用于反馈调节对抗样本生成策略;在对比结果表征鉴别结果与语音样本的真实标签不同的情况下,将语音样本存储到增量样本集中,并利用持续学习子模型基于增量样本集对语音鉴别子模型进行增量训练。
-
公开(公告)号:CN118366478A
公开(公告)日:2024-07-19
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118016051B
公开(公告)日:2024-07-19
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN118016051A
公开(公告)日:2024-05-10
申请号:CN202410407065.1
申请日:2024-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于模型指纹聚类的生成语音溯源方法及装置,所述方法包括:将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将其输入预先训练的语音鉴别模型,若待鉴别语音为生成语音,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将其输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹聚类,对于声码器模型架构及其参数进行逆向推理,实现高精度、细粒度的生成语音溯源。
-
公开(公告)号:CN117894320A
公开(公告)日:2024-04-16
申请号:CN202410299729.7
申请日:2024-03-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及声纹识别技术领域,提出了一种面向复杂信道的声纹识别方法、装置、介质和程序产品,面向复杂信道的声纹识别方法包括:获取第一训练数据集和第一模型;基于第一训练数据集和第一模型,确定正交投影矩阵;基于第一训练数据集和第一模型,确定重要性矩阵;根据正交投影矩阵,确定方向约束参数;根据重要性矩阵,确定幅度约束参数;基于方向约束参数和幅度约束参数,对第一模型进行模型训练,以得到第二模型,基于第二模型,对语音数据进行识别,确定语音数据的声纹信息。
-
公开(公告)号:CN116884391B
公开(公告)日:2023-12-01
申请号:CN202311144835.X
申请日:2023-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置,所述方法包括:响应于接收到用于生成音频的信息,确定与信息的类型对应的、预先训练好的编码器,其中,不同类型的信息分别对应的编码器通过对比联合训练得到;将用于生成音频的信息输入预先训练好的编码器,得到嵌入特征;将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型,生成与嵌入特征对应的音频,在本公开中,不同类型的信息分别对应的编码器通过对比联合训练得到,在有限的数据集中训练出的编码器,能够输出合理的模态融合信息,从而更加准确地生成音频。
-
-
-
-
-
-
-
-
-