Patent search ap:("苏州大学") AND inv:"邵前程" Page 1

1.

发明公开
一种基于多模型局部描述整合的行人描述生成方法审中-实审

公开(公告)号：CN119251855A

公开(公告)日：2025-01-03

申请号：CN202411776734.9

申请日：2024-12-05

Applicant: 苏州大学

Inventor： 刘恋 , 邵前程 , 陆宇昕 , 吴彧 , 曹敏

IPC: G06V30/41 , G06V30/19

Abstract: 本发明公开了一种基于多模型局部描述整合的行人描述生成方法，涉及图像数据处理技术领域。包括获取待标注的行人图像，将图像与预设指令输入至多个图生文模型，生成行人各属性的局部文本描述；利用图文匹配模型提取图像和文本特征，通过余弦相似度计算图像与文本的匹配度，从多个描述中筛选出与图像最匹配的属性描述；采用大语言模型将筛选出的局部描述合并，生成行人整体的流畅文本描述；通过行人图像和文本数据集对图文匹配模型进行训练，并利用对比损失和匹配损失函数进行优化，直至总体损失函数收敛。本发明通过跨模态大模型对行人的属性短语的生成，使得对于行人属性短语的描述更加丰富多样，避免生成的描述趋同。

Patent Agency Ranking