-
公开(公告)号:CN105469065A
公开(公告)日:2016-04-06
申请号:CN201510889388.X
申请日:2015-12-07
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/00315 , G06K9/6256 , G06K9/6269 , G06K9/6288
Abstract: 本发明提出的一种基于递归神经网络的离散情感识别方法,步骤为:1、对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点作为人脸的形变特征;将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;2、对视频中的音频信号进行加窗处理,分割出音频序列单元并提取音频特征;3、利用具有长短时记忆模型的递归神经网络分别对上述得到的三项特征进行时序编码,获得固定长度的情感表征向量;并将其相串联,得到最终情感表述特征;4、基于的支持向量机分类器,利用3中得到的最终情感表述特征进行情感类别预测。该方法能够充分利用情感表达过程中的动态信息,从而实现视频中参与者情感的精确识别。
-
公开(公告)号:CN103531207A
公开(公告)日:2014-01-22
申请号:CN201310481318.1
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合长跨度情感历史的语音情感识别方法。该方法包括以下步骤:利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别语音段数据;将待识别语音段数据切分为独立的语音段数据单元;利用第一支持向量机对语音段数据单元分别进行情感状态初步分类;对情感状态初步分类结果进行加窗,并利用第二支持向量机进行融合,得到融合长跨度情感历史的情感识别结果。本发明在保证对语音信号的局部单元进行高精度分类的同时,又充分利用信号序列的长跨度内的上下文信息,以达到对序列中的每一单元达到最优的分类结果。本发明能够用于语音信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。
-
公开(公告)号:CN103035238A
公开(公告)日:2013-04-10
申请号:CN201210487489.0
申请日:2012-11-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种音频数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据,获得语音段数据;从语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及对状态序列和状态时长进行编码,生成音频数据包。本发明可以在低编码速率的情况下,保持较高的语音音质。
-
公开(公告)号:CN102831606A
公开(公告)日:2012-12-19
申请号:CN201210272187.1
申请日:2012-08-01
Applicant: 中国科学院自动化研究所
IPC: G06T7/00
Abstract: 本发明提供了一种在医学影像中获取发音器官轮廓的方法。该方法包括:对于医学图像,利用唇部与背景的自动分割阈值,对医学影像中嘴唇与背景区域进行二值化,得到唇部轮廓;在唇部轮廓包含的面部范围内,提取上牙齿轮廓、下牙齿轮廓、上颌轮廓和下颌轮廓;针对上颌轮廓和下颌轮廓之间图像区域,获取舌位轮廓的可靠边缘点;以及由舌位轮廓的可靠边缘点拟合出舌位边缘轮廓。本发明能自动从影像背景中分割出发音人头部、器官区域,整个过程自动完成,无需人工交互。
-
公开(公告)号:CN102201240A
公开(公告)日:2011-09-28
申请号:CN201110140269.6
申请日:2011-05-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于逆滤波的谐波噪声激励模型声码器,声码器包含有:参数提取模块接收语音数据,分析基频参数和频谱参数;逆滤波模块接收频谱参数设计逆滤波器,得到去除谱信息的残差信号;最大浊音频率估计模块接收基频参数和逆滤波后的残差信号,计算最大浊音频率将残差信号的频谱划分为低频段的谐波和高频段的噪声;浊音激励生成模块接收基频参数和最大浊音频率,分别用一组正弦波和高通滤波的高斯白噪声来构建激励模型中的低频谐波和高频噪声;清音激励生成模块用高斯白噪声;参数语音合成器模块接收频谱参数和清音激励信号或浊音激励信号,调用合成器输出语音。依据本发明实现对逆滤波后的残差信号建模,合成语音具有较好的自然度和清晰度。
-
公开(公告)号:CN101064103B
公开(公告)日:2011-05-04
申请号:CN200610076015.1
申请日:2006-04-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于音节韵律约束关系的汉语语音合成方法及系统,系统包括:文本输入模块、韵律处理模块、语音输出模块。方法包括:接收或输入任意文字串转换成语音输出;文本分析对输入文本格式和内容分析并转换成音节序列串;韵律预测模块接收附着韵律信息的音节序列串,利用统计模型预测出与其对应的目标韵律值;波形拼接模块接收所述附着目标韵律值的音节序列串,根据所述音节序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本并拼接;语音输出模块播放韵律表现接近于自然的拼接语音。依据本发明将极大提高系统合成语音的自然度和流畅度,从而使得输出的语音非常自然,几乎接近真人所发出的语音。
-
公开(公告)号:CN101051458A
公开(公告)日:2007-10-10
申请号:CN200610073102.1
申请日:2006-04-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于组块分析的韵律短语预测方法,用于语音合成系统韵律短语的预测,将系统接收或输入的任意文字串转换成带有韵律短语停顿标注的文字形式,将组块作为韵律短语预测的基本单元,训练生成组块合并模型;训练生成韵律短语边界必停点的预测模型;训练生成韵律短语的节律平衡模型;基于组块合并模型、韵律短语必停点的预测模型、长度约束模型执行生成韵律短语。创建韵律短语标注语料库,用组块从文本生成组块,利用韵律短语语料库估计组块合并模型、训练支持向量机识别器,得到韵律短语的必停点的预测器,利用韵律短语语料库训练节律平衡模型。本发明提高了韵律短语边界预测的准确率和召回率,使得合成结果保持较好的自然度和可懂度。
-
公开(公告)号:CN118366478B
公开(公告)日:2024-10-11
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118053451B
公开(公告)日:2024-07-19
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
公开(公告)号:CN116884391A
公开(公告)日:2023-10-13
申请号:CN202311144835.X
申请日:2023-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置,所述方法包括:响应于接收到用于生成音频的信息,确定与信息的类型对应的、预先训练好的编码器,其中,不同类型的信息分别对应的编码器通过对比联合训练得到;将用于生成音频的信息输入预先训练好的编码器,得到嵌入特征;将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型,生成与嵌入特征对应的音频,在本公开中,不同类型的信息分别对应的编码器通过对比联合训练得到,在有限的数据集中训练出的编码器,能够输出合理的模态融合信息,从而更加准确地生成音频。
-
-
-
-
-
-
-
-
-