Patent search ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)") AND inv:"陈晓培" Page 1

1.

发明公开
一种基于模态自适应掩码融合网络的多模态情感识别方法有权

公开(公告)号：CN118800218A

公开(公告)日：2024-10-18

申请号：CN202411280779.7

申请日：2024-09-13

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 张永兵 , 李恒锐 , 刘绍辉 , 陈晓培 , 董春山

IPC: G10L15/02 , G10L15/06 , G10L15/18 , G10L15/183 , G10L25/63 , G06F40/30

Abstract: 本发明提供一种基于模态自适应掩码融合网络（MAMF‑Net）的多模态情感识别方法，包括：利用文本编码模型将文本转换为词向量，并通过自注意力机制提取语义结构特征。提取音频上下文特征，并从梅尔频谱图中提取时间依赖特征。通过音频引导式文本编码器融合音频和文本特征，同时采用自掩码机制对迁移信息进行遮挡，捕获模态间的互补信息。使用多头注意力机制综合处理融合后的特征，并通过线性映射层转换为情感类别的概率分布，根据概率分布确定并输出最终的情感分类。本方法通过高效整合模态间信息，在情感识别任务中展现了显著的性能提升，具有广泛的应用潜力。

2.

发明授权
一种自适应多频段语音混合情感感知方法有权

公开(公告)号：CN118800282B

公开(公告)日：2024-11-29

申请号：CN202411273679.1

申请日：2024-09-12

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 张永兵 , 李恒锐 , 刘绍辉 , 陈晓培 , 董春山

IPC: G10L25/63 , G10L25/18 , G10L25/15 , G10L25/30

Abstract: 一种自适应多频段语音混合情感感知方法，输入语音信号经过预处理分帧，利用快速傅里叶变换获取频谱特征，信号通过梅尔尺度的三角滤波器组处理，模拟人类听觉系统的非线性频率特性，并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分，定制化特征提取策略。自适应深度残差块并行处理各频段特征，深度控制器动态调整网络深度以适应信号复杂度。ADRB中，多层蒸馏和残差通道实现多级特征提取，残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力，强化频段间依赖关系。时间驱动模块加强时序连续性，最终特征融合用于情感分类和识别。该方法全面捕捉情感特征，显著提升情感状态识别的精度和效率。

3.

发明公开
一种自适应多频段语音混合情感感知方法有权

公开(公告)号：CN118800282A

公开(公告)日：2024-10-18

申请号：CN202411273679.1

申请日：2024-09-12

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 张永兵 , 李恒锐 , 刘绍辉 , 陈晓培 , 董春山

IPC: G10L25/63 , G10L25/18 , G10L25/15 , G10L25/30

Abstract: 一种自适应多频段语音混合情感感知方法，输入语音信号经过预处理分帧，利用快速傅里叶变换获取频谱特征，信号通过梅尔尺度的三角滤波器组处理，模拟人类听觉系统的非线性频率特性，并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分，定制化特征提取策略。自适应深度残差块并行处理各频段特征，深度控制器动态调整网络深度以适应信号复杂度。ADRB中，多层蒸馏和残差通道实现多级特征提取，残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力，强化频段间依赖关系。时间驱动模块加强时序连续性，最终特征融合用于情感分类和识别。该方法全面捕捉情感特征，显著提升情感状态识别的精度和效率。

4.

发明授权
一种基于模态自适应掩码融合网络的多模态情感识别方法有权

公开(公告)号：CN118800218B

公开(公告)日：2024-12-03

申请号：CN202411280779.7

申请日：2024-09-13

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 张永兵 , 李恒锐 , 刘绍辉 , 陈晓培 , 董春山

IPC: G10L15/02 , G10L15/06 , G10L15/18 , G10L15/183 , G10L25/63 , G06F40/30

Abstract: 本发明提供一种基于模态自适应掩码融合网络（MAMF‑Net）的多模态情感识别方法，包括：利用文本编码模型将文本转换为词向量，并通过自注意力机制提取语义结构特征。提取音频上下文特征，并从梅尔频谱图中提取时间依赖特征。通过音频引导式文本编码器融合音频和文本特征，同时采用自掩码机制对迁移信息进行遮挡，捕获模态间的互补信息。使用多头注意力机制综合处理融合后的特征，并通过线性映射层转换为情感类别的概率分布，根据概率分布确定并输出最终的情感分类。本方法通过高效整合模态间信息，在情感识别任务中展现了显著的性能提升，具有广泛的应用潜力。

Patent Agency Ranking