-
公开(公告)号:CN118520417A
公开(公告)日:2024-08-20
申请号:CN202410755744.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06V10/80 , G06V20/20 , G06N3/0464 , G06N3/084 , G06F40/205
Abstract: 本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
-
公开(公告)号:CN118468224A
公开(公告)日:2024-08-09
申请号:CN202410755737.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06F18/22 , G06F18/241 , G06F18/213 , G06N3/0455 , G06N3/084 , G06V10/74 , G06V10/82
Abstract: 本发明提出了一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法。该方法将传统的讽刺检测任务重新定义为生成任务,利用生成式多模态大语言模型的强大跨模态交互能力。通过设计指令模板和检索模块,模型能够更好地理解任务目标,并从训练集中检索与输入样本相似的示例作为提示信息,从而提高检测性能。此外,提出了新的测试数据集RedEval,用于评估模型在不同场景下的泛化能力。该方法提高了多模态讽刺检测的准确性和泛化能力,推动了多模态理解和处理技术在复杂情感分析领域的应用。
-
公开(公告)号:CN115796182A
公开(公告)日:2023-03-14
申请号:CN202211486444.1
申请日:2022-11-24
Applicant: 北京邮电大学
IPC: G06F40/295 , G06F40/216
Abstract: 本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法,引入实体范围检测作为辅助任务,以抽取实体特征作为文本和视觉模态信息交互的桥梁,同时,提出了一种基于异构图的实体级跨模态交互网络来挖掘视觉模态中的实体信息,增强文本特征,从而应对多模态命名实体识别任务的特有挑战,并提高多模态命名实体识别的性能;通过使用包含完整语义信息的实体特征与目标特征交互,实现更高效地捕获实体相关视觉信息,提高多模态命名实体识别的准确率;通过将非实体词元排除到跨模态交互过程外,保护非实体词元免受视觉模态噪声的干扰,减少图像噪声干扰导致非实体词元误识别为实体的错误情况发生。
-
-