Patent search ap:("桂林电子科技大学") AND inv:"陈冀楚" Page 1

1.

发明公开
基于CLIP编码器的轻量级多模态图像描述生成方法审中-实审

公开(公告)号：CN118069877A

公开(公告)日：2024-05-24

申请号：CN202410299938.1

申请日：2024-03-15

Applicant: 桂林电子科技大学

Inventor： 黄文明 , 陈冀楚

IPC: G06F16/58 , G06N20/00

Abstract: 本发明公开了一种基于CLIP编码器的轻量级多模态图像描述生成方法，首先对图像数据进行预处理，生成图像特征向量；其次利用语言生成模型；最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成，以生成更加准确和多样的描述。该方法采用了一种混合多模态模型，在图像特征生成阶段，引入了先进的CLIP编码器，该编码器能够将图像和文本嵌入空间进行对比学习，产生更具语义丰富性的特征表示。本发明提供了一种简单、轻便且高效的多模态文本生成技术，为解决多模态任务中的挑战提供了有力的解决方案。本发明方法有望推动多模态文本生成领域的发展，为实际应用提供更先进的解决方案。

2.

发明公开
一种面向开放世界的图像描述生成方法审中-实审

公开(公告)号：CN117437461A

公开(公告)日：2024-01-23

申请号：CN202311322769.0

申请日：2023-10-13

Applicant: 桂林电子科技大学

Inventor： 黄文明 , 陈冀楚

IPC: G06V10/764 , G06V10/82 , G06V10/44 , G06N3/045 , G06N3/0455 , G06N3/08

Abstract: 本发明公开了一种面向开放世界的图像描述生成方法，首先对图像数据进行预处理，生成图像特征向量；其次利用语言生成模型；最后生成所需的图像描述模型。该方法通过对已有描述进行扩充和合成，以生成更加准确和多样的描述。该方法采用了一种混合多模态模型，可以将描述分为开放世界描述和封闭世界描述，从而更好地生成多样化的描述。该方法通过结合多个模型生成的描述来产生更好的结果，并通过自我监督学习来进一步提高性能。本发明方法能够自动产生图像描述，方法简单易用，无需过多人工干预，应用性强，应用范围广，尤其在新闻处理、文案处理等方面将会有很大的应用。

Patent Agency Ranking