基于CLIP编码器的轻量级多模态图像描述生成方法

    公开(公告)号:CN118069877A

    公开(公告)日:2024-05-24

    申请号:CN202410299938.1

    申请日:2024-03-15

    Inventor: 黄文明 陈冀楚

    Abstract: 本发明公开了一种基于CLIP编码器的轻量级多模态图像描述生成方法,首先对图像数据进行预处理,生成图像特征向量;其次利用语言生成模型;最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成,以生成更加准确和多样的描述。该方法采用了一种混合多模态模型,在图像特征生成阶段,引入了先进的CLIP编码器,该编码器能够将图像和文本嵌入空间进行对比学习,产生更具语义丰富性的特征表示。本发明提供了一种简单、轻便且高效的多模态文本生成技术,为解决多模态任务中的挑战提供了有力的解决方案。本发明方法有望推动多模态文本生成领域的发展,为实际应用提供更先进的解决方案。

    一种面向开放世界的图像描述生成方法

    公开(公告)号:CN117437461A

    公开(公告)日:2024-01-23

    申请号:CN202311322769.0

    申请日:2023-10-13

    Inventor: 黄文明 陈冀楚

    Abstract: 本发明公开了一种面向开放世界的图像描述生成方法,首先对图像数据进行预处理,生成图像特征向量;其次利用语言生成模型;最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成,以生成更加准确和多样的描述。该方法采用了一种混合多模态模型,可以将描述分为开放世界描述和封闭世界描述,从而更好地生成多样化的描述。该方法通过结合多个模型生成的描述来产生更好的结果,并通过自我监督学习来进一步提高性能。本发明方法能够自动产生图像描述,方法简单易用,无需过多人工干预,应用性强,应用范围广,尤其在新闻处理、文案处理等方面将会有很大的应用。

Patent Agency Ranking