基于神经网络和迁移学习的多模态情感识别方法、系统

    公开(公告)号:CN107609572B

    公开(公告)日:2021-04-02

    申请号:CN201710698379.1

    申请日:2017-08-15

    Inventor: 陶建华 黄健 李雅

    Abstract: 本发明涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。

    多模态维度情感识别方法
    82.
    发明公开

    公开(公告)号:CN112560830A

    公开(公告)日:2021-03-26

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    基于融合深度特征的微表情识别方法

    公开(公告)号:CN112560812A

    公开(公告)日:2021-03-26

    申请号:CN202110188625.5

    申请日:2021-02-19

    Abstract: 本申请涉及基于融合深度特征的微表情识别方法,包括:输入微表情视频文件,得到仅包含人脸的微表情帧序列;对微表情序列归一化和灰度化,得到微表情预处理序列;掩盖微表情预处理序列中不活跃的区域,得到微表情活跃帧序列;使用光流法对微表情活跃帧序列的相邻帧提取光流,得到光流序列;构建能够提取微表情活跃帧序列特征和光流序列特征的深度神经网络模型,将所述微表情活跃帧序列特征和光流序列特征融合得到用于识别微表情的特征;将微表情活跃帧序列以及光流序列作为深度神经网络模型的输入,对深度神经网络模型进行学习优化;将待测试的视频文件经过上述步骤后,送入学习优化后的深度神经网络模型提取特征进行微表情识别。

    基于汉语韵律结构和重音的联合预测模型构建方法及系统

    公开(公告)号:CN107464559B

    公开(公告)日:2020-12-15

    申请号:CN201710561567.X

    申请日:2017-07-11

    Abstract: 本发明涉及一种基于汉语韵律结构和重音的联合的预测模型构建方法及系统,所述构建方法包括:对多个历史语料文本训练语料进行预处理,得到预处理文本;对预处理文本进行分词处理,得到分词文本信息;根据分词文本信息确定对应文本的词向量特征序列;基于注意力机制的RNN的编码‑解码,对所述词向量特征序列进行编码、解码处理,建立基于汉语韵律结构和重音的联合预测模型,用于预测待处理文本的韵律结构和重音。本发明通过对多个历史语料文本训练语料进行预处理、分词处理获得分词文本信息,得到对应文本的词向量特征序列,进而基于注意力机制的RNN的编码‑解码,建立联合预测模型,充分考虑汉语韵律结构与重音的关系,实现对待测文本的准确预测。

    语音识别中的小数据语音声学建模方法

    公开(公告)号:CN108682417B

    公开(公告)日:2020-05-19

    申请号:CN201810455011.7

    申请日:2018-05-14

    Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。

    基于深层神经网络中间层特征的头相关传输函数建模系统

    公开(公告)号:CN107480100A

    公开(公告)日:2017-12-15

    申请号:CN201710536423.9

    申请日:2017-07-04

    Inventor: 陶建华 戚肖克

    Abstract: 本发明涉及本发明涉及电子行业信号处理技术领域,提出了一种基于深层神经网络中间层特征的头相关传输函数建模系统,该系统包括训练系统、建模系统;所述训练系统包括特征生成模块、模型训练模块、HRTF数据库;所述建模系统包括特征生成模块、预测模块、HRTF重建模块;所述特征生成模块用以生成模型输入特征;所述模型训练模块用以在所述模型输入特征与HRTF数据库中的HRTF之间产生非线性映射;所述HRTF数据库用于存储HRTF;所述预测模块用以针对目标位置产生对数幅度最小相位HRTF;所述HRTF重建模块用以重构目标位置处的HRTF。本发明充分利用了HRTF数据与基函数之间的非线性关系,并提高模型准确度。

    端到端的汉语韵律层级结构预测模型的构建方法及系统

    公开(公告)号:CN107451115A

    公开(公告)日:2017-12-08

    申请号:CN201710562102.6

    申请日:2017-07-11

    Abstract: 本发明涉及一种端到端的汉语韵律层级结构预测模型的构建方法及系统,所述构建方法包括:根据多个裸文本得到字嵌入embedding层的字向量序列;基于长短时间记忆BLSTM神经网络和条件随机场CRF分类器,根据所述字向量序列,构建汉语韵律层级结构的预测模型,用于预测待处理文本的汉语韵律层级结构。本发明端到端的汉语韵律层级结构预测模型的构建方法及系统将字embedding层、BLSTM神经网络及CRF分类器串联在一起,根据字embedding层的字向量序列,基于BLSTM神经网络及CRF分类器得到汉语韵律层级结构的预测模型,实现对待处理文本的准确预测。

    基于口音瓶颈特征的声学模型自适应方法

    公开(公告)号:CN106875942A

    公开(公告)日:2017-06-20

    申请号:CN201611232996.4

    申请日:2016-12-28

    CPC classification number: G10L15/16 G10L15/02 G10L15/063 G10L15/065 G10L17/02

    Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。

    音素时长预测建模方法及音素时长预测方法

    公开(公告)号:CN106601226A

    公开(公告)日:2017-04-26

    申请号:CN201611027187.X

    申请日:2016-11-18

    Abstract: 本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。

    一种人机对话中教授意图答案生成方法

    公开(公告)号:CN106095950A

    公开(公告)日:2016-11-09

    申请号:CN201610422829.X

    申请日:2016-06-14

    Abstract: 本发明公开了一种人机对话中教授意图答案生成方法,所述方法包括:对于收到的对话,计算其句间相似度,然后对当前对话语句进行对话意图识别;如果当前对话的意图是闲聊意图,则将当前对话及其对应的询问意图值添加至历史记录中,并直接通过搜索知识库或者网络返回答案;如果当前对话的意图是教授意图则进入下一步骤;在所述历史记录中寻找当前对话对应的问句;结合当前对话及网络信息,进行多轮模拟自我对话获取相关答案集合;对于相关答案集合进行过滤;基于每条答案的权重进行摘要抽取,权重值最高的答案作为摘要抽取的结果及当前对话的回答返回。本发明能够对人机对话中教授意图下对用户的教授内容进行良好的反馈,提高人机对话的满意度。

Patent Agency Ranking