-
公开(公告)号:CN118520417A
公开(公告)日:2024-08-20
申请号:CN202410755744.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06V10/80 , G06V20/20 , G06N3/0464 , G06N3/084 , G06F40/205
Abstract: 本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
-
公开(公告)号:CN118861281A
公开(公告)日:2024-10-29
申请号:CN202410808838.7
申请日:2024-06-21
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F18/24 , G06F40/284 , G06F40/295 , G06F40/289 , G06N3/045 , G06N3/084 , G06N5/04
Abstract: 本发明提供了一种基于表达感知最近邻的信息抽取方法,通过引入后交互最近邻算法,将检索词和文本词均映射入向量空间计算,将信息抽取转换为向量检索问题,提高信息抽取的可扩展性、可适应性以及可解释性。在训练阶段,构建了统一的索引结构,结合表达方式相似度计算和几何分布策略进行采样,并使用了类别不平衡损失函数,保证训练过程各个训练实例具有相对一致的优化方向,提高了可扩展性和可适应性;在非训练阶段,通过结合推理阶段检索到的标注样例和LIME算法,本发明可以对抽取的信息实例进行合理解释,提高了可解释性。
-
公开(公告)号:CN118468224A
公开(公告)日:2024-08-09
申请号:CN202410755737.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06F18/22 , G06F18/241 , G06F18/213 , G06N3/0455 , G06N3/084 , G06V10/74 , G06V10/82
Abstract: 本发明提出了一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法。该方法将传统的讽刺检测任务重新定义为生成任务,利用生成式多模态大语言模型的强大跨模态交互能力。通过设计指令模板和检索模块,模型能够更好地理解任务目标,并从训练集中检索与输入样本相似的示例作为提示信息,从而提高检测性能。此外,提出了新的测试数据集RedEval,用于评估模型在不同场景下的泛化能力。该方法提高了多模态讽刺检测的准确性和泛化能力,推动了多模态理解和处理技术在复杂情感分析领域的应用。
-
-