-
公开(公告)号:CN115796182A
公开(公告)日:2023-03-14
申请号:CN202211486444.1
申请日:2022-11-24
Applicant: 北京邮电大学
IPC: G06F40/295 , G06F40/216
Abstract: 本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法,引入实体范围检测作为辅助任务,以抽取实体特征作为文本和视觉模态信息交互的桥梁,同时,提出了一种基于异构图的实体级跨模态交互网络来挖掘视觉模态中的实体信息,增强文本特征,从而应对多模态命名实体识别任务的特有挑战,并提高多模态命名实体识别的性能;通过使用包含完整语义信息的实体特征与目标特征交互,实现更高效地捕获实体相关视觉信息,提高多模态命名实体识别的准确率;通过将非实体词元排除到跨模态交互过程外,保护非实体词元免受视觉模态噪声的干扰,减少图像噪声干扰导致非实体词元误识别为实体的错误情况发生。
-
公开(公告)号:CN119005190A
公开(公告)日:2024-11-22
申请号:CN202411037062.X
申请日:2024-07-31
Applicant: 中国电子科技集团有限公司电子科学研究院 , 北京邮电大学 , 中电科电科院科技集团有限公司
IPC: G06F40/295 , G06F40/30 , G06F40/284 , G06F40/186 , G06F40/16
Abstract: 本发明提出了一种低资源场景下多模态命名实体识别与定位方法,方法包括:通过计算相似度筛选语义相近的图文对,在低资源场景下,使用LLaMA作为核心结构,通过构造多模态实例,更加充分地利用模型预训练知识。在训练阶段,通过计算相似度筛选语义相近的图文对,构建实例辅助训练,并在训练过程中同时计算命名实体识别损失函数和实体定位损失函数帮助训练;在非训练阶段,通过语义相似度计算构建实例辅助推理,提升多模态命名实体识别与定位在低资源情景下的效果。
-
公开(公告)号:CN118537908A
公开(公告)日:2024-08-23
申请号:CN202410762978.5
申请日:2024-06-13
Applicant: 中国电子科技集团有限公司电子科学研究院 , 北京邮电大学
IPC: G06V40/16 , G06V10/764 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/084
Abstract: 本发明提出了一种基于大模型的多模态多粒度特征融合表情包情感识别方法,包括:将图文数据对输入CLIP模型中;基于余弦相似度,构建表征细粒度图文一致性的相似度图;筛选与文本特征相似度最高的部分图像块特征;融合图像全局特征与序列索引对应的图像块特征,获取多粒度图像特征表示;对CLIP模型进行调整并冻结;获取待识别表情包并经由当前冻结的CLIP模型图像编码器,重复图像融合处理,得到待识别融合图像特征,并嵌入到预设prompt模板中,输入至LLM模型中进行微调并预测情感类别,调整LLM模型并进行迭代,直至LLM模型在情感识别上达到预设要求。本发明通过两个阶段的微调,实现了对表情包情感的准确识别和分类。
-
-