一种环境对抗的鲁棒语音鉴别方法

    公开(公告)号:CN113284486B

    公开(公告)日:2021-11-16

    申请号:CN202110841144.X

    申请日:2021-07-26

    Abstract: 本发明提供一种环境对抗的鲁棒语音鉴别方法,包括:采集语音鉴别模型训练数据;提取所述训练数据中每个语音句子的训练声学特征;将所述训练声学特征输入语音鉴别模型,所述语音鉴别模型包括:语音真假判别器和环境对抗判别器,联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数;得到训练后的语音鉴别模型;采集语音鉴别模型预测数据;提取所述预测数据中每个语音句子的预测声学特征;将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型,输出语音的判别结果。

    基于层级区分的生成音频检测系统

    公开(公告)号:CN113284508B

    公开(公告)日:2021-11-09

    申请号:CN202110827718.8

    申请日:2021-07-21

    Abstract: 本发明提供基于层级区分的生成音频检测系统,包括:音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型;音频预处理模块对采集到的音视频数据进行数据预处理,得到长度不超过限定的音频片段;将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块,得到CQCC特征和LFCC特征;将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选,筛选出第一阶段真实语音和第一阶段生成语音;将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型,鉴别出第二阶段真实语音和第二阶段生成语音,第二阶段生成语音确认为生成语音。

    一种流式和非流式混合语音识别系统及流式语音识别方法

    公开(公告)号:CN113257248B

    公开(公告)日:2021-10-15

    申请号:CN202110675286.3

    申请日:2021-06-18

    Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。

    面向中文短文本的实体识别与实体链接方法

    公开(公告)号:CN113377930A

    公开(公告)日:2021-09-10

    申请号:CN202110931275.7

    申请日:2021-08-13

    Abstract: 本发明提供面向中文短文本的实体识别与实体链接方法,包括:使用知识库中的实体名称与实体别名信息去构建实体名称词典并识别出实体;将实体的描述文本输入到预训练语言模型中,得到实体的名称嵌入表示;将所述识别出的实体在原始短文本中的位置特征、原始短文本和所述实体的名称嵌入表示同时输入到融合知识库实体名嵌入的短文本实体识别模型中,得到当前实体是否为正确实体的概率;再与传统的实体识别模型融合,得到最终实体识别结果;利用给定的知识库构建实体指称项词典,并通过实体识别结果确定每一个待消歧实体的候选实体集合;将原始短文本和待消歧实体的描述文本连在一起,输入实体链接模型,得到正确的链接实体。

    基于多角度分析的多模态精神状态评估方法

    公开(公告)号:CN113274023A

    公开(公告)日:2021-08-20

    申请号:CN202110732115.X

    申请日:2021-06-30

    Abstract: 本发明提供基于多角度分析的多模态精神状态评估的方法,包括:从原始视频中采集音频文件和视频文件,并对所述音频文件和视频文件进行数据预处理:从音频文件中提取时域波形点和梅尔频率倒谱系数作为音频特征;将图片序列输入到预训练网络,得到视频编码向量;提取图片序列的人脸运动单元;将视频编码向量和人脸运动单元作为视频特征;将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析,得到抑郁特征、焦虑特征和压力特征;将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合,得到融合特征;将融合特征输入支持向量回归,评估音频文件和视频文件中个体的精神状态。

    基于微表情视频的视频特征提取方法、微表情识别方法

    公开(公告)号:CN110532950B

    公开(公告)日:2021-08-13

    申请号:CN201910808102.9

    申请日:2019-08-29

    Abstract: 本发明属于情感计算领域,特别涉及一种基于微表情视频的视频特征提取方法,旨在为了解决如何从视频中识别面部微小变化并提取出微表情特征,提高微表情识别精度和准确率的问题。本发明对待测目标人脸视频每一帧图像进行网格化处理,并进行二阶梯度的计算和数据分布统计,获取图像帧序列对应的图像特征表示序列;通过秩池化,按照时间顺序排序特征表示序列,获取视频特征表示;通过范数的行稀疏性获取微表情视频特征。本发明能够提取面部的局部细节信息,捕获人脸细节信息的动态变化,在提取微表情视频特征的同时进一步抑制面部中其他信息对识别结果的影响;进一步通过本发明的微表情识别方法,有效提高了微表情识别精度和准确率。

    端到端的音视频抑郁症自动检测研究方法

    公开(公告)号:CN112560811B

    公开(公告)日:2021-07-02

    申请号:CN202110188624.0

    申请日:2021-02-19

    Abstract: 本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。

    融合深度特征和时序模型的语义情感分析方法

    公开(公告)号:CN112560503B

    公开(公告)日:2021-07-02

    申请号:CN202110188618.5

    申请日:2021-02-19

    Abstract: 本申请涉及融合深度特征和时序模型的语义情感分析方法,包括:文本预处理,将文本转化为格式统一的词向量矩阵;以词向量矩阵为输入,提取局部语义情感文本特征和提取上下文语义情感文本特征;利用注意力机制通过对所述局部语义情感文本特征和上下文语义情感文本特征加权,生成融合语义情感文本特征;将所述局部语义情感文本特征、所述上下文语义情感文本特征和融合语义情感文本特征进行连接,生成全局语义情感文本特征;以全局语义情感文本特征为输入,利用softmax分类器进行最终的文本情感语义分析识别。

    基于混合网络和lp范数池化的抑郁状态检测方法及装置

    公开(公告)号:CN112687390B

    公开(公告)日:2021-06-18

    申请号:CN202110270093.X

    申请日:2021-03-12

    Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。

    时频通道注意力权重计算和向量化的方法和网络

    公开(公告)号:CN112581980B

    公开(公告)日:2021-05-25

    申请号:CN202110216692.3

    申请日:2021-02-26

    Abstract: 本申请涉及时频通道注意力权重计算和向量化的方法和网络,包括:使用球嵌入归一化对对数傅里叶幅值谱进行预处理;切分对数傅里叶幅值谱预处理数据成短时谱段,生成多通道张量;使用注意力机制计算每一个通道时间方向和频率方向的注意力权重;将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量;利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量;将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果;将至少一个通道的时间方向和频率方向的向量化结果拼接起来,并利用一维卷积获得通道向量化结果;计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。

Patent Agency Ranking