-
公开(公告)号:CN119166803A
公开(公告)日:2024-12-20
申请号:CN202411191966.8
申请日:2024-08-28
Applicant: 电子科技大学
IPC: G06F16/34 , G06F18/25 , G06F40/205 , G06V30/41 , G06V30/42 , G06V30/18 , G06N3/0455 , G06N3/0442 , G06N3/0464
Abstract: 一种基于深度学习的面向多模态数据的摘要生成方法,包括如下步骤:获取新闻样本数据并进行预处理,获得新闻图片及新闻文本描述;通过训练好的基于残差机制的卷积神经网络从新闻图片提取图片特征;通过训练好的BERT‑base模型从新闻文本描述提取文本特征;将图片特征送到训练好的使用Transfomer模块为基础的视觉注意力层,得到图片上下文向量;将文本特征送到训练好的使用双向LSTM为基础的文本注意力层得到文本上下文向量;将图片上下文向量及文本上下文向量输入多模态注意力层,实现文本特征和图片特征的融合;步骤S5:将融合后的特征输入多模态解码器,生成摘要。本发明具有较强的通用性,能够提高信息处理的效率和准确性,为处理大数据提供了新的解决方案。