一种基于提示指导和自监督对比学习的视觉问答方法

    公开(公告)号:CN118013070A

    公开(公告)日:2024-05-10

    申请号:CN202410425002.9

    申请日:2024-04-10

    Applicant: 吉林大学

    Abstract: 本发明涉及人工智能的视觉问答技术领域,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法,包括:获取目标问题,将目标问题输入预设的视觉问答模型中,输出预测的答案,其中视觉问答模型包括:提示样本生成模块,用于构建提示模板,并基于提示模板结合图像‑问题对的信息生成提示样本;嵌入提取模块,用于基于提示样本指导图像‑问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;嵌入融合模块,用于对文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;答案预测模块,用于基于融合嵌入预测视觉问答任务的答案。本发明能够准确进行视觉问答。

    一种基于区域表示和视觉表示的视觉问答方法及系统

    公开(公告)号:CN116542995A

    公开(公告)日:2023-08-04

    申请号:CN202310768905.2

    申请日:2023-06-28

    Applicant: 吉林大学

    Abstract: 本申请公开了一种基于区域表示和视觉表示的视觉问答方法及系统,其中方法步骤包括:基于Faster R‑CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;基于图像区域特征图,生成邻居增强的区域表示;基于GRU模型学得的问题特征对邻居增强的区域表示进行指导,得到最终的视觉特征;基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。本申请为每张图像构建区域特征图,以表示该图像中所有区域之间的关联和特征。同时,基于带重启的随机行走方法,在区域特征图中学习邻域增强区域表示。此外,还提出一个问题指导的纵横双重注意力机制。机制以问题特征表示作为指导,从区域层面和特征层面增强区域表示。

    一种基于提示指导和自监督对比学习的视觉问答方法

    公开(公告)号:CN118013070B

    公开(公告)日:2024-08-23

    申请号:CN202410425002.9

    申请日:2024-04-10

    Applicant: 吉林大学

    Abstract: 本发明涉及人工智能的视觉问答技术领域,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法,包括:获取目标问题,将目标问题输入预设的视觉问答模型中,输出预测的答案,其中视觉问答模型包括:提示样本生成模块,用于构建提示模板,并基于提示模板结合图像‑问题对的信息生成提示样本;嵌入提取模块,用于基于提示样本指导图像‑问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;嵌入融合模块,用于对文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;答案预测模块,用于基于融合嵌入预测视觉问答任务的答案。本发明能够准确进行视觉问答。

    一种基于区域表示和视觉表示的视觉问答方法及系统

    公开(公告)号:CN116542995B

    公开(公告)日:2023-09-22

    申请号:CN202310768905.2

    申请日:2023-06-28

    Applicant: 吉林大学

    Abstract: 本申请公开了一种基于区域表示和视觉表示的视觉问答方法及系统,其中方法步骤包括:基于Faster R‑CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;基于图像区域特征图,生成邻居增强的区域表示;基于GRU模型学得的问题特征对邻居增强的区域表示进行指导,得到最终的视觉特征;基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。本申请为每张图像构建区域特征图,以表示该图像中所有区域之间的关联和特征。同时,基于带重启的随机行走方法,在区域特征图中学习邻域增强区域表示。此外,还提出一个问题指导的纵横双重注意力机制。机制以问题特征表示作为指导,从区域层面和特征层面增强区域表示。

Patent Agency Ranking