-
公开(公告)号:CN119961856A
公开(公告)日:2025-05-09
申请号:CN202510027744.0
申请日:2025-01-08
Applicant: 南京邮电大学
IPC: G06F18/25 , G06F18/27 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明深度学习自然语言处理技术领域,公开了一种基于视觉前缀的生成式多模态信息抽取方法,具体为:输入文本信息及图像信息,实现文本和图像关系抽取,视觉表示作为可插入的视觉前缀,以指导错误不敏感的预测决策的文本表示,实现层次多尺度视觉特征作为融合的视觉前缀,多模态信息提取器有效地提取特征。本发明将视觉信息与文本信息进行融合,通过多层次的视觉前缀注意力机制将视觉特征与文本特征进行交互更新,结合一个统一的多模态信息提取器,将多模态信息抽取任务统一为使用指令调优的生成问题,能够实现自动回归生成信息提取结果。