基于原始波形的轻量级神经网络生成语音鉴别方法和系统

    公开(公告)号:CN113314148A

    公开(公告)日:2021-08-27

    申请号:CN202110866648.7

    申请日:2021-07-29

    Abstract: 本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。

    基于音素时长特征的虚假语音检测方法及装置

    公开(公告)号:CN113284513A

    公开(公告)日:2021-08-20

    申请号:CN202110841276.2

    申请日:2021-07-26

    Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。

    基于预训练模型的交叉聚焦损失的溯因推理方法

    公开(公告)号:CN113283605A

    公开(公告)日:2021-08-20

    申请号:CN202110841128.0

    申请日:2021-07-26

    Abstract: 本发明提供基于预训练模型的交叉聚焦损失的溯因推理方法,包括:将观测对O1和O2与所有假设的结合,得到输入序列;将输入序列中的单一输入变量输入预训练模型,得到对应句子级别的特征矩阵,然后对特征矩阵的单词维度求和,得到特征向量;遍历输入序列中所有单一输入变量,得到特征向量序列;将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;引入聚类因子和引入权重因子,改进FocalLoss,得到训练损失函数;优化所述训练损失函数,得到最优的溯因推理模型。

    海量音视频情感识别系统
    244.
    发明授权

    公开(公告)号:CN112633263B

    公开(公告)日:2021-06-08

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    自动抑郁检测方法、装置、设备

    公开(公告)号:CN112331337B

    公开(公告)日:2021-04-16

    申请号:CN202110001070.9

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

    海量音视频情感识别系统
    247.
    发明公开

    公开(公告)号:CN112633263A

    公开(公告)日:2021-04-09

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    基于多尺度时空特征神经网络的微表情识别方法

    公开(公告)号:CN112560810A

    公开(公告)日:2021-03-26

    申请号:CN202110188615.1

    申请日:2021-02-19

    Abstract: 本申请涉及基于多尺度时空特征神经网络的微表情识别方法,可以从微表情视频帧中学习到微表情的空间域与时间域的特征,将两者特征结合形成更加鲁棒的微表情特征。同时针对微表情发生在面部局部区域,将微表情产生的活跃的局部地区与全局区域相结合用于微表情识别。解决了微表情连续帧之间特征提取不足,以及微表情在局部区域较为活跃的问题。本发明对自发式微表情的准确率,相比于其它方法,具有一定的优势,78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

    自动抑郁检测方法、装置、设备

    公开(公告)号:CN112331337A

    公开(公告)日:2021-02-05

    申请号:CN202110001070.9

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

    基于三元损失的语音情感识别方法及系统

    公开(公告)号:CN109003625B

    公开(公告)日:2021-01-12

    申请号:CN201810839374.0

    申请日:2018-07-27

    Inventor: 陶建华 黄健 李雅

    Abstract: 本发明属于情感识别技术领域,具体涉及一种基于三元损失的语音情感识别方法及系统,旨在解决如何精确识别易混淆的情感类别的技术问题。为此目的,本发明的语音情感识别方法包括:对待测语音数据进行分帧处理,获取特定长度的语音序列;基于预设的情感时序编码网络并且根据语音序列进行时序编码获取语音序列对应的情感特征向量;基于预设的语音情感分类器并且根据多个预设的真实情感类别预测情感特征向量对应的情感类别。本发明的语音情感识别方法可以较好的识别易混淆的语音情感类别,同时本发明的语音情感识别系统能够执行并实现上述方法。

Patent Agency Ranking