图像描述的生成方法和装置

    公开(公告)号:CN112508048A

    公开(公告)日:2021-03-16

    申请号:CN202011136029.4

    申请日:2020-10-22

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像描述的生成方法和装置,其中,该方法包括:获取目标图像中的物体数据和关系数据;根据物体数据和关系数据确定出目标图像的主题数据;调用预训练的图像处理模型获取并根据上述数据通过底层表征隐式地推断出目标图像中的高层语义信息,来生成与目标图像对应的图像描述;其中,上述预训练的图像处理模型具有对底层表征进行抽象的能力。该方法通过先从物体数据和关系数据中抽象出主题数据,再利用包含有主题节点的预训练的图像处理模型,根据主题数据、物体数据和关系数据,来共同确定出目标图像的图像描述,从而可以高效地得到能准确地表征出目标图像中的高层语义信息的图像描述。

    图像文本检索模型的建模方法
    2.
    发明公开

    公开(公告)号:CN115221347A

    公开(公告)日:2022-10-21

    申请号:CN202210660120.9

    申请日:2022-06-13

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像文本检索模型的建模方法,包括以下步骤:基于掩码语言模型(MLM)生成合成负样本句;使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM);通过单词辨别任务WoC和单词校正任务WoD来对合成负样本与正样本句的区别进行训练。本申请实施例提出了一种基于生成负样本句的方法来构建负样本,以提高图文检索模型的训练效率。为了充分利用合成负样本句,本申请还提出了两个训练任务,单词辨别任务和单词校正任务,以结合细粒度的监督信号来增强多模态局部对应建模。本申请实施例构建出的模型在两个公共数据集MS‑COCO和Flickr30K上均达到了最先进的性能。

    图像描述的生成方法和装置

    公开(公告)号:CN112508048B

    公开(公告)日:2023-06-06

    申请号:CN202011136029.4

    申请日:2020-10-22

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像描述的生成方法和装置,其中,该方法包括:获取目标图像中的物体数据和关系数据;根据物体数据和关系数据确定出目标图像的主题数据;调用预训练的图像处理模型获取并根据上述数据通过底层表征隐式地推断出目标图像中的高层语义信息,来生成与目标图像对应的图像描述;其中,上述预训练的图像处理模型具有对底层表征进行抽象的能力。该方法通过先从物体数据和关系数据中抽象出主题数据,再利用包含有主题节点的预训练的图像处理模型,根据主题数据、物体数据和关系数据,来共同确定出目标图像的图像描述,从而可以高效地得到能准确地表征出目标图像中的高层语义信息的图像描述。

    图像文本对的判断方法和装置
    4.
    发明公开

    公开(公告)号:CN115017356A

    公开(公告)日:2022-09-06

    申请号:CN202210615255.3

    申请日:2022-06-01

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像文本对的判断方法,包括以下步骤根据图片的句子级语义标签生成短语级语义标签;建立模态间关系模型和模态内关系模型;根据全局配对、局部配对和短语配对计算图片文本匹配度,全局配对由模态间关系模型和模态内关系模型生成整体图片和句子的相似度,局部配对由模态间关系模型生成图片和字符短语之间相似度以及句子和图片区域之间的相似度,短语配对在图片和字符短语相似度的基础上,根据短语级语义标生成。在跨模态语义编码当中,本申请通过引入短语节点来扩展自注意力编码器输入,并在编码过程中保持短语与单词的层次结构关系,以实现更好的多粒度语义建模。本申请提供了短语级别的细粒度损失函数来指导模型区分不匹配的句子,使模型更多地基于不相关的局部部分做出决策。这方法不仅有助于模型获得更好的检索性能,而且使之具有可解释性和可信度。

Patent Agency Ranking