一种基于多模型局部描述整合的行人描述生成方法

    公开(公告)号:CN119251855A

    公开(公告)日:2025-01-03

    申请号:CN202411776734.9

    申请日:2024-12-05

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于多模型局部描述整合的行人描述生成方法,涉及图像数据处理技术领域。包括获取待标注的行人图像,将图像与预设指令输入至多个图生文模型,生成行人各属性的局部文本描述;利用图文匹配模型提取图像和文本特征,通过余弦相似度计算图像与文本的匹配度,从多个描述中筛选出与图像最匹配的属性描述;采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述;通过行人图像和文本数据集对图文匹配模型进行训练,并利用对比损失和匹配损失函数进行优化,直至总体损失函数收敛。本发明通过跨模态大模型对行人的属性短语的生成,使得对于行人属性短语的描述更加丰富多样,避免生成的描述趋同。

Patent Agency Ranking