-
公开(公告)号:CN118069877A
公开(公告)日:2024-05-24
申请号:CN202410299938.1
申请日:2024-03-15
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于CLIP编码器的轻量级多模态图像描述生成方法,首先对图像数据进行预处理,生成图像特征向量;其次利用语言生成模型;最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成,以生成更加准确和多样的描述。该方法采用了一种混合多模态模型,在图像特征生成阶段,引入了先进的CLIP编码器,该编码器能够将图像和文本嵌入空间进行对比学习,产生更具语义丰富性的特征表示。本发明提供了一种简单、轻便且高效的多模态文本生成技术,为解决多模态任务中的挑战提供了有力的解决方案。本发明方法有望推动多模态文本生成领域的发展,为实际应用提供更先进的解决方案。
-
公开(公告)号:CN117437461A
公开(公告)日:2024-01-23
申请号:CN202311322769.0
申请日:2023-10-13
Applicant: 桂林电子科技大学
IPC: G06V10/764 , G06V10/82 , G06V10/44 , G06N3/045 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种面向开放世界的图像描述生成方法,首先对图像数据进行预处理,生成图像特征向量;其次利用语言生成模型;最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成,以生成更加准确和多样的描述。该方法采用了一种混合多模态模型,可以将描述分为开放世界描述和封闭世界描述,从而更好地生成多样化的描述。该方法通过结合多个模型生成的描述来产生更好的结果,并通过自我监督学习来进一步提高性能。本发明方法能够自动产生图像描述,方法简单易用,无需过多人工干预,应用性强,应用范围广,尤其在新闻处理、文案处理等方面将会有很大的应用。
-