-
公开(公告)号:CN117131879A
公开(公告)日:2023-11-28
申请号:CN202310591677.6
申请日:2023-05-24
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G06F40/35 , G06N3/0455 , G06N3/08 , G06F40/268 , G06V20/70 , G06V10/82
Abstract: 本发明涉及一种基于双重软约束的视觉对话信息识别方法,包括:采用多层Transformer编码器作为基准模型,并以图像区域特征I、提出的问题qt、图片描述C、历史对话Ht和附加的候选答案作为模型的输入;通过掩码语言模型损失、掩码图像区域损失和下句预测损失对模型进行多任务训练;使用POS标签信息并引入POS标签预损失帮助对话中的代词找到对应的名词作为第一个软约束,采用正弦位置编码并引入句子位置向量作为第二个软约束,通过两个软约束增强模型的表达能力;通过最后得到的模型对视觉对话信息进行解析识别。本发明基于双重软约束的视觉对话算法能够有效地解析代词指代的实体,并提升视觉对话模型答案的准确性。