-
公开(公告)号:CN118520417A
公开(公告)日:2024-08-20
申请号:CN202410755744.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06V10/80 , G06V20/20 , G06N3/0464 , G06N3/084 , G06F40/205
Abstract: 本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
-
公开(公告)号:CN118964603A
公开(公告)日:2024-11-15
申请号:CN202410991657.2
申请日:2024-07-23
Applicant: 中国电子科技集团有限公司电子科学研究院 , 北京邮电大学 , 中电科电科院科技集团有限公司
IPC: G06F16/34 , G06F18/25 , G06N3/0455 , G06N3/082 , G06V10/77
Abstract: 本申请公开了一种基于视觉信息融合的多模态摘要方法及系统,涉及数据处理、人工智能技术,包括:将提取的视觉特征与文本特征拼接,并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块;将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入,以获得结合视觉信息的文本特征;将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器;将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入,以获得解码器输出的文本特征;将解码器输出的文本特征经过线性层,将输出的向量输入到Softmax层,依据概率分布和词汇表,获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。
-
公开(公告)号:CN118468224A
公开(公告)日:2024-08-09
申请号:CN202410755737.8
申请日:2024-06-12
Applicant: 北京邮电大学
IPC: G06F18/25 , G06F18/22 , G06F18/241 , G06F18/213 , G06N3/0455 , G06N3/084 , G06V10/74 , G06V10/82
Abstract: 本发明提出了一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法。该方法将传统的讽刺检测任务重新定义为生成任务,利用生成式多模态大语言模型的强大跨模态交互能力。通过设计指令模板和检索模块,模型能够更好地理解任务目标,并从训练集中检索与输入样本相似的示例作为提示信息,从而提高检测性能。此外,提出了新的测试数据集RedEval,用于评估模型在不同场景下的泛化能力。该方法提高了多模态讽刺检测的准确性和泛化能力,推动了多模态理解和处理技术在复杂情感分析领域的应用。
-
-