-
公开(公告)号:CN116129230A
公开(公告)日:2023-05-16
申请号:CN202211634700.7
申请日:2022-12-19
Applicant: 福州大学
IPC: G06V10/80 , G06V10/774 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明涉及一种基于双路双层特征编码器的图像描述系统,包括基于几何与视觉的融合模块,用于嵌入图像特征的位置信息;基于自注意力网络的特征增强编码器模块,结合区域特征和网格特征,互补增强特征融合;基于双层Transformer的特征融合编码器模块,用于对区域特征和网格特征进行建模融合;基于多元残差网络的特征融合模块,对特征融合编码器模块的输出进行融合,得到编码信息;基于Transformer的解码器模块,对编码信息进行解码。本发明能够更好地根据图像内容生成对应的描述语句。