-
公开(公告)号:CN114969338A
公开(公告)日:2022-08-30
申请号:CN202210580293.X
申请日:2022-05-25
Applicant: 北京理工大学
Abstract: 本发明对原始图文数据进行特征提取,获得单词和图片的特征向量;用Transformer编码器将图文进行融合获得输出的变量拼接为指导向量;基于注意力机制将单词特征向量编码得到句子特征向量;基于注意力机制和指导向量将句子特征向量编码得到文本特征向量;结合两个编码器的输出向量和文本特征向量进行情感分类。本发明提供的图文情感分类方法及系统,一方面更多的考虑文本模态的作用,另一方面在考虑各个句子对于文本情感影响的同时,使用对称翻译模块融合后的向量指导生成文本向量,解决了指导向量与文本向量异质的问题,同时在文本向量生成过程中又再次考虑了文本与图片的融合,而不是单一的融合方式,进一步提升了图文融合的效果。
-
公开(公告)号:CN114969338B
公开(公告)日:2025-01-03
申请号:CN202210580293.X
申请日:2022-05-25
Applicant: 北京理工大学
IPC: G06F16/35 , G06F16/33 , G06F40/55 , G06F18/2411 , G06F18/214 , G06F18/25
Abstract: 本发明对原始图文数据进行特征提取,获得单词和图片的特征向量;用Transformer编码器将图文进行融合获得输出的变量拼接为指导向量;基于注意力机制将单词特征向量编码得到句子特征向量;基于注意力机制和指导向量将句子特征向量编码得到文本特征向量;结合两个编码器的输出向量和文本特征向量进行情感分类。本发明提供的图文情感分类方法及系统,一方面更多的考虑文本模态的作用,另一方面在考虑各个句子对于文本情感影响的同时,使用对称翻译模块融合后的向量指导生成文本向量,解决了指导向量与文本向量异质的问题,同时在文本向量生成过程中又再次考虑了文本与图片的融合,而不是单一的融合方式,进一步提升了图文融合的效果。
-
公开(公告)号:CN115203409A
公开(公告)日:2022-10-18
申请号:CN202210732914.1
申请日:2022-06-27
Applicant: 北京理工大学
IPC: G06F16/35 , G06F40/126 , G06N3/04 , G06N3/08
Abstract: 本发明从视频提取出文本、图片和音频的特征向量;用GRU对各模态的特征向量编码得到各模态特定维度的向量表示;用带门机制的Transformer将各模态信息进行融合并将融合向量拼接作为多模态向量表示;用LSTM和全连接网络对各模态的特征向量编码得到各模态转换的向量表示;用多模态向量表示、各模态转换的向量表示和多模态情感标签计算得到单模态情感标签;结合多模态情感标签和单模态标签进行多任务学习,同时进行多模态情感分类、单模态情感分类。本发明提供的视频情感分类方法使用融合后的多模态向量表示参与生成单模态标签,提高了单模态标签的准确度;还采用多任务学习的方式,同时进行多模态情感分类和单模态情感分类,提升了视频情感分类的效果。
-
-