-
公开(公告)号:CN119807466B
公开(公告)日:2025-05-16
申请号:CN202510294112.0
申请日:2025-03-13
Applicant: 苏州大学
IPC: G06F16/583 , G06F16/532 , G06N5/04 , G06V40/10 , G06V20/70 , G06V10/774 , G06V10/98 , G06T3/4046 , G06T3/4053 , G06N3/045 , G06N3/0475
Abstract: 本发明涉及数据生成技术领域,公开了一种基于文本描述的行人检索任务数据集构建方法,包括直接以行人的人物特征,以及行人所处场景的场景特征为占位符,构建基础模板,并对基础模板进行填充后,生成对应的提示词;利用扩散模型,基于提示词,生成图像数据,完全不依赖原始数据,大大降低了隐私风险和规避了合格性问题。同时本发明利用局部编辑模型、全局编辑模型与非刚性编辑模型,直接基于生成的初始图像数据,有选择地对图像数据中对应属性的特征进行编辑,获取编辑图像数据,获取的编辑图像数据分辨率高,且图像生成的泛化性好、自由度高,大大提高了生成的图像数据的多样性,能够更全面的训练行人检索模型,提高模型识别精度。
-
公开(公告)号:CN119807466A
公开(公告)日:2025-04-11
申请号:CN202510294112.0
申请日:2025-03-13
Applicant: 苏州大学
IPC: G06F16/583 , G06F16/532 , G06N5/04 , G06V40/10 , G06V20/70 , G06V10/774 , G06V10/98 , G06T3/4046 , G06T3/4053 , G06N3/045 , G06N3/0475
Abstract: 本发明涉及数据生成技术领域,公开了一种基于文本描述的行人检索任务数据集构建方法,包括直接以行人的人物特征,以及行人所处场景的场景特征为占位符,构建基础模板,并对基础模板进行填充后,生成对应的提示词;利用扩散模型,基于提示词,生成图像数据,完全不依赖原始数据,大大降低了隐私风险和规避了合格性问题。同时本发明利用局部编辑模型、全局编辑模型与非刚性编辑模型,直接基于生成的初始图像数据,有选择地对图像数据中对应属性的特征进行编辑,获取编辑图像数据,获取的编辑图像数据分辨率高,且图像生成的泛化性好、自由度高,大大提高了生成的图像数据的多样性,能够更全面的训练行人检索模型,提高模型识别精度。
-
公开(公告)号:CN119251855A
公开(公告)日:2025-01-03
申请号:CN202411776734.9
申请日:2024-12-05
Applicant: 苏州大学
Abstract: 本发明公开了一种基于多模型局部描述整合的行人描述生成方法,涉及图像数据处理技术领域。包括获取待标注的行人图像,将图像与预设指令输入至多个图生文模型,生成行人各属性的局部文本描述;利用图文匹配模型提取图像和文本特征,通过余弦相似度计算图像与文本的匹配度,从多个描述中筛选出与图像最匹配的属性描述;采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述;通过行人图像和文本数据集对图文匹配模型进行训练,并利用对比损失和匹配损失函数进行优化,直至总体损失函数收敛。本发明通过跨模态大模型对行人的属性短语的生成,使得对于行人属性短语的描述更加丰富多样,避免生成的描述趋同。
-
-