-
公开(公告)号:CN112329746B
公开(公告)日:2021-04-16
申请号:CN202110001041.2
申请日:2021-01-04
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及数据处理领域,具体涉及一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。所述方法包括:输入待测音频、待测视频以及待测文本这三个模态的原始数据;对输入内容分别进行特征提取,得到三个模态的深度特征;对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画,得到每个词的融合后的多模态特征;对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;对上述每个词的最终的特征进行池化得到全局特征,然后通过全连接层得到谎言分类结果。
-
公开(公告)号:CN112579745A
公开(公告)日:2021-03-30
申请号:CN202110196514.9
申请日:2021-02-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/216 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请涉及基于图神经网络的对话情感纠错模型,包括:多模态特征抽取模块、基于单句的情感识别模块、交互建模模块、时序建模模块和情感预测模块;所述多模态特征抽取模块和所述基于单句的情感识别模块连接,所述基于单句的情感识别模块与所述交互建模模块连接,所述交互建模模块与所述时序建模模块连接,所述时序建模模块与所述情感预测模块连接。
-
公开(公告)号:CN112560811A
公开(公告)日:2021-03-26
申请号:CN202110188624.0
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
-
公开(公告)号:CN107705801B
公开(公告)日:2020-10-02
申请号:CN201610634660.4
申请日:2016-08-05
Applicant: 中国科学院自动化研究所
IPC: G10L21/038 , G10L25/30
Abstract: 本发明公开了一种语音带宽扩展模型的训练方法和语音带宽扩展方法。其中,语音带宽扩展方法包括:获取待扩展窄带语音;计算所述待扩展窄带语音的幅值谱和相位谱,并提取所述待扩展窄带语音的辅助特征;采用训练后的所述语音带宽扩展模型对所述待扩展窄带语音的所述幅值谱和所述辅助特征进行处理,得到重构的宽带语音高频带的幅值谱;在频域上对所述待扩展窄带语音的所述相位谱进行镜像翻转,确定宽带语音高频带的相位谱;基于所述窄带语音的所述幅值谱和所述相位谱,并联合所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱,确定宽带语音信号。通过本发明,实现了提高窄带语音的音质和自然度的效果。
-
公开(公告)号:CN106653056B
公开(公告)日:2020-04-24
申请号:CN201611030326.4
申请日:2016-11-16
Applicant: 中国科学院自动化研究所
IPC: G10L25/30
Abstract: 本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。所述基频提取模型通过本发明的方法训练得到。本发明大大提高了基频提取的精度和鲁棒性,特别是很好地解决了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
-
公开(公告)号:CN110532950A
公开(公告)日:2019-12-03
申请号:CN201910808102.9
申请日:2019-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感计算领域,特别涉及一种基于微表情视频的视频特征提取方法,旨在为了解决如何从视频中识别面部微小变化并提取出微表情特征,提高微表情识别精度和准确率的问题。本发明对待测目标人脸视频每一帧图像进行网格化处理,并进行二阶梯度的计算和数据分布统计,获取图像帧序列对应的图像特征表示序列;通过秩池化,按照时间顺序排序特征表示序列,获取视频特征表示;通过范数的行稀疏性获取微表情视频特征。本发明能够提取面部的局部细节信息,捕获人脸细节信息的动态变化,在提取微表情视频特征的同时进一步抑制面部中其他信息对识别结果的影响;进一步通过本发明的微表情识别方法,有效提高了微表情识别精度和准确率。
-
公开(公告)号:CN106531157B
公开(公告)日:2019-10-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN106653056A
公开(公告)日:2017-05-10
申请号:CN201611030326.4
申请日:2016-11-16
Applicant: 中国科学院自动化研究所
IPC: G10L25/30
Abstract: 本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。所述基频提取模型通过本发明的方法训练得到。本发明大大提高了基频提取的精度和鲁棒性,特别是很好地解决了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
-
公开(公告)号:CN103646649B
公开(公告)日:2016-04-13
申请号:CN201310743203.5
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
IPC: G10L25/78
Abstract: 本发明公开了一种语音检测方法,该方法包括以下步骤:在时域上分析原始音频的短时能量和短时过零率,剔除其中的部分非语音信号;在频域上分析保留下来的音频信号子带的谱包络特性和子带的熵特性,进一步剔除其中的部分非语音信号;将保留的各帧音频信号中特征相似的连续帧组成音频段;计算每段音频中各帧梅尔倒谱系数的均值,将其分别输入到语音高斯混合模型和各种非语音高斯混合模型中,根据各模型的输出概率对于该音频段中是否包含语音数据进行段级决策,最终得到语音检测结果。本发明能够在各种复杂环境下从音频数据流中检测到语音信号,可以相对准确的定位语音段数据和非语音段数据之间的边界。
-
公开(公告)号:CN103646649A
公开(公告)日:2014-03-19
申请号:CN201310743203.5
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
IPC: G10L25/78
Abstract: 本发明公开了一种语音检测方法,该方法包括以下步骤:在时域上分析原始音频的短时能量和短时过零率,剔除其中的部分非语音信号;在频域上分析保留下来的音频信号子带的谱包络特性和子带的熵特性,进一步剔除其中的部分非语音信号;将保留的各帧音频信号中特征相似的连续帧组成音频段;计算每段音频中各帧梅尔倒谱系数的均值,将其分别输入到语音高斯混合模型和各种非语音高斯混合模型中,根据各模型的输出概率对于该音频段中是否包含语音数据进行段级决策,最终得到语音检测结果。本发明能够在各种复杂环境下从音频数据流中检测到语音信号,可以相对准确的定位语音段数据和非语音段数据之间的边界。
-
-
-
-
-
-
-
-
-