多模态情感识别方法
    31.
    发明公开

    公开(公告)号:CN112559835A

    公开(公告)日:2021-03-26

    申请号:CN202110200140.3

    申请日:2021-02-23

    Abstract: 本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。

    面向交互场景的自动谎言检测方法、装置、设备及介质

    公开(公告)号:CN112329748A

    公开(公告)日:2021-02-05

    申请号:CN202110001077.0

    申请日:2021-01-04

    Abstract: 本申请实施例涉及一种面向交互场景的自动谎言检测方法、装置、设备及介质,旨在提高自动谎言检测的准确率。所述方法包括:将待测样片分别按照视频、音频和文本这三个模态进行切分,提取出这三个模态的短时特征,将待测样片中每句对话中三个模态的短时特征分别进行融合,得到每句对话对应的三个模态的长时特征,使用自注意力机制对三个模态的长时特征进行融合,得到每句对话的多模态特征,通过图神经网络为每句对话的多模态特征融合交互信息,得到融合交互信息的多模态特征,根据融合交互信息的多模态特征,预测每句对话的谎言水平。

    语音带宽扩展模型的训练方法及语音带宽扩展方法

    公开(公告)号:CN107705801A

    公开(公告)日:2018-02-16

    申请号:CN201610634660.4

    申请日:2016-08-05

    Inventor: 陶建华 刘斌

    Abstract: 本发明公开了一种语音带宽扩展模型的训练方法和语音带宽扩展方法。其中,语音带宽扩展方法包括:获取待扩展窄带语音;计算所述待扩展窄带语音的幅值谱和相位谱,并提取所述待扩展窄带语音的辅助特征;采用训练后的所述语音带宽扩展模型对所述待扩展窄带语音的所述幅值谱和所述辅助特征进行处理,得到重构的宽带语音高频带的幅值谱;在频域上对所述待扩展窄带语音的所述相位谱进行镜像翻转,确定宽带语音高频带的相位谱;基于所述窄带语音的所述幅值谱和所述相位谱,并联合所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱,确定宽带语音信号。通过本发明,实现了提高窄带语音的音质和自然度的效果。

    音频数据的编码方法及解码方法

    公开(公告)号:CN103035238A

    公开(公告)日:2013-04-10

    申请号:CN201210487489.0

    申请日:2012-11-27

    Abstract: 本发明提供了一种音频数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据,获得语音段数据;从语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及对状态序列和状态时长进行编码,生成音频数据包。本发明可以在低编码速率的情况下,保持较高的语音音质。

    一种入侵检测系统及方法
    35.
    发明授权

    公开(公告)号:CN101436336B

    公开(公告)日:2010-10-27

    申请号:CN200710177404.8

    申请日:2007-11-15

    Abstract: 公开一种入侵检测系统和方法,系统由多个检测网络位于防范现场,总线将检测网络连接至远程监控中心;方法是将无线传感模块加入无线数据模块建立的网络,接收无线数据模块分配的网络地址后上传邻居表,于远程监控中心端形成网络拓扑图,收到远程监控中心的工作参数后发送和接收广播,获取广播信号的无线电信号强度,路由上传至无线数据模块,无线数据模块以此信息运行判定算法,确定是否因入侵行为发生而导致无线电信号强度异常,若发生异常则报警,并通过敏感区域、运行定位算法确定入侵者位置,入侵者位置和报警信息将被送至远程监控中心。本发明能识别入侵行为,发出报警并定位入侵者位置,不易受环境因素影响,抗干扰能力强,成本低廉。

    基于音视频的鲁棒情感建模系统

    公开(公告)号:CN113255800B

    公开(公告)日:2021-10-15

    申请号:CN202110615003.6

    申请日:2021-06-02

    Abstract: 本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

    多模态情感识别方法
    37.
    发明授权

    公开(公告)号:CN112559835B

    公开(公告)日:2021-09-14

    申请号:CN202110200140.3

    申请日:2021-02-23

    Abstract: 本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。

    自然场景下的表情识别方法和装置

    公开(公告)号:CN112580617B

    公开(公告)日:2021-06-18

    申请号:CN202110222926.5

    申请日:2021-03-01

    Abstract: 本申请涉及自然场景下的表情识别方法和装置,具体方法包括:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;再进行向量融合,得到用于训练的面部特征融合向量;将所述面部特征融合向量输入支持向量机做表情分类。

    多模态维度情感识别方法
    39.
    发明授权

    公开(公告)号:CN112560830B

    公开(公告)日:2021-05-25

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    基于混合网络和lp范数池化的抑郁状态检测方法及装置

    公开(公告)号:CN112687390A

    公开(公告)日:2021-04-20

    申请号:CN202110270093.X

    申请日:2021-03-12

    Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。

Patent Agency Ranking