-
公开(公告)号:CN118800218A
公开(公告)日:2024-10-18
申请号:CN202411280779.7
申请日:2024-09-13
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种基于模态自适应掩码融合网络(MAMF‑Net)的多模态情感识别方法,包括:利用文本编码模型将文本转换为词向量,并通过自注意力机制提取语义结构特征。提取音频上下文特征,并从梅尔频谱图中提取时间依赖特征。通过音频引导式文本编码器融合音频和文本特征,同时采用自掩码机制对迁移信息进行遮挡,捕获模态间的互补信息。使用多头注意力机制综合处理融合后的特征,并通过线性映射层转换为情感类别的概率分布,根据概率分布确定并输出最终的情感分类。本方法通过高效整合模态间信息,在情感识别任务中展现了显著的性能提升,具有广泛的应用潜力。
-
公开(公告)号:CN118800282B
公开(公告)日:2024-11-29
申请号:CN202411273679.1
申请日:2024-09-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。
-
公开(公告)号:CN118800282A
公开(公告)日:2024-10-18
申请号:CN202411273679.1
申请日:2024-09-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。
-
公开(公告)号:CN118800218B
公开(公告)日:2024-12-03
申请号:CN202411280779.7
申请日:2024-09-13
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种基于模态自适应掩码融合网络(MAMF‑Net)的多模态情感识别方法,包括:利用文本编码模型将文本转换为词向量,并通过自注意力机制提取语义结构特征。提取音频上下文特征,并从梅尔频谱图中提取时间依赖特征。通过音频引导式文本编码器融合音频和文本特征,同时采用自掩码机制对迁移信息进行遮挡,捕获模态间的互补信息。使用多头注意力机制综合处理融合后的特征,并通过线性映射层转换为情感类别的概率分布,根据概率分布确定并输出最终的情感分类。本方法通过高效整合模态间信息,在情感识别任务中展现了显著的性能提升,具有广泛的应用潜力。
-
-
-