-
公开(公告)号:CN115292533A
公开(公告)日:2022-11-04
申请号:CN202210989022.X
申请日:2022-08-17
Applicant: 苏州大学
IPC: G06F16/532 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06V40/10 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
-
公开(公告)号:CN113283394B
公开(公告)日:2023-04-25
申请号:CN202110722073.1
申请日:2021-06-28
Applicant: 苏州大学
IPC: G06V40/10 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种融合上下文信息的行人重识别方法及系统,包括以下步骤:选取行人重识别数据集,提取数据集中所有行人特征;选取每个行人的上下文信息,构造图结构;对构造好的图结构进行结点信息更新;将更新后的图结构经过带权重的池化操作后得到结合上下文信息的行人特征;将池化后的行人特征与相应的原始行人特征进行拼接,构建行人重识别模型;将待识别的行人图片输入行人重识别模型,并与所有最终行人分类特征进行相似度比较,得到行人重识别的匹配结果。本发明解决现有特征学习方法在信息上的不足和获取辅助信息的成本过大问题,使得行人重识别模型在不增加额外信息情况下提高模型的准确率。
-
公开(公告)号:CN114707007B
公开(公告)日:2022-08-30
申请号:CN202210635337.4
申请日:2022-06-07
Applicant: 苏州大学
IPC: G06F16/41 , G06F16/45 , G06F16/432 , G06F16/483 , G06F16/48 , G06F16/51 , G06F16/55 , G06F16/583 , G06F16/58 , G06F16/31 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。
-
公开(公告)号:CN113283394A
公开(公告)日:2021-08-20
申请号:CN202110722073.1
申请日:2021-06-28
Applicant: 苏州大学
Abstract: 本发明公开了一种融合上下文信息的行人重识别方法及系统,包括以下步骤:选取行人重识别数据集,提取数据集中所有行人特征;选取每个行人的上下文信息,构造图结构;对构造好的图结构进行结点信息更新;将更新后的图结构经过带权重的池化操作后得到结合上下文信息的行人特征;将池化后的行人特征与相应的原始行人特征进行拼接,构建行人重识别模型;将待识别的行人图片输入行人重识别模型,并与所有最终行人分类特征进行相似度比较,得到行人重识别的匹配结果。本发明解决现有特征学习方法在信息上的不足和获取辅助信息的成本过大问题,使得行人重识别模型在不增加额外信息情况下提高模型的准确率。
-
公开(公告)号:CN119807466B
公开(公告)日:2025-05-16
申请号:CN202510294112.0
申请日:2025-03-13
Applicant: 苏州大学
IPC: G06F16/583 , G06F16/532 , G06N5/04 , G06V40/10 , G06V20/70 , G06V10/774 , G06V10/98 , G06T3/4046 , G06T3/4053 , G06N3/045 , G06N3/0475
Abstract: 本发明涉及数据生成技术领域,公开了一种基于文本描述的行人检索任务数据集构建方法,包括直接以行人的人物特征,以及行人所处场景的场景特征为占位符,构建基础模板,并对基础模板进行填充后,生成对应的提示词;利用扩散模型,基于提示词,生成图像数据,完全不依赖原始数据,大大降低了隐私风险和规避了合格性问题。同时本发明利用局部编辑模型、全局编辑模型与非刚性编辑模型,直接基于生成的初始图像数据,有选择地对图像数据中对应属性的特征进行编辑,获取编辑图像数据,获取的编辑图像数据分辨率高,且图像生成的泛化性好、自由度高,大大提高了生成的图像数据的多样性,能够更全面的训练行人检索模型,提高模型识别精度。
-
公开(公告)号:CN119917694A
公开(公告)日:2025-05-02
申请号:CN202411693245.7
申请日:2024-11-25
Applicant: 苏州大学
IPC: G06F16/783 , G06F16/75 , G06F16/71 , G06F16/738 , G06V10/764
Abstract: 本发明涉及多模态数据检索和跨模态对比学习技术领域,公开了一种多标签提取和预筛选文本到视频的检索方法及系统,包括:从文本和视频数据中提取标签,生成标签集,并对标签集进行筛选;对视频库中的视频和输入文本进行特征提取,生成视频和文本的多标签概率分布;构建标签至视频ID的倒排索引,并将生成的多标签概率分布与倒排索引中的标签进行匹配;根据输入文本标签集的匹配结果,匹配的相关视频。通过多标签提取和预筛选框架,将视频和文本数据转换为离散的语义标签,并结合倒排索引技术,实现了快速标签匹配和视频预筛选,有效降低了计算复杂度。
-
公开(公告)号:CN117557872B
公开(公告)日:2024-03-22
申请号:CN202410044790.7
申请日:2024-01-12
Applicant: 苏州大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06V10/26 , G06N3/088
Abstract: 本发明涉及工业异常检测技术领域,尤其是指一种优化存储模式的无监督异常检测方法、装置及计算机可读存储介质。所述方法包括:将数据集分为训练集和测试集;提取训练集的特征,计算每个补丁的输出特征向量与该补丁的特征存储库中已有特征向量的最近距离,将最近距离最大值对应的输出特征向量存入特征存储库,直到总特征存储库不再变化;对总特征存储库进行子采样;提取测试集的特征,计算测试集中样本图像的异常分数,确定正常图像和异常图像的分割阈值;计算待检测图像的异常分数,依据分割阈值对待检测图像分类。本发明在保证检测性能基本不变的情况下,有效减少了特征存储库占用的内存大小,提高了无监督异常检测的检测效率。
-
公开(公告)号:CN117271780A
公开(公告)日:2023-12-22
申请号:CN202311546547.7
申请日:2023-11-20
Applicant: 苏州大学
IPC: G06F16/35 , G06N3/0464 , G06N3/08 , G06F40/205
Abstract: 本发明涉及大语言模型技术领域,公开了一种基于大语言模型自身对上下文进行压缩的方法及系统,包括:获取待压缩文本,添加任务描述、分隔符和压缩槽;当GPU资源紧缺的情况下,利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层,当GPU资源充沛时,预训练大语言模型自身对所述待压缩文本进行压缩;将训练后的大语言模型进行推理,生成文本回复。本发明提供基于大语言模型自身对上下文进行压缩的方法及系统任务提示参与到压缩过程中,可以让压缩后的虚拟字符更具目的性从而生成更好的输出结果。既可以利用现有的大语言模型,也可以将压缩部署在预训练阶段,并且通过大语言模型自身对上下文进行压缩,不需要额外训练压缩器。
-
公开(公告)号:CN115292533B
公开(公告)日:2023-06-27
申请号:CN202210989022.X
申请日:2022-08-17
Applicant: 苏州大学
IPC: G06F16/532 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06V40/10 , G06F40/30 , G06N3/0455 , G06N3/047 , G06N3/08
Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
-
公开(公告)号:CN115712740A
公开(公告)日:2023-02-24
申请号:CN202310031393.1
申请日:2023-01-10
Applicant: 苏州大学
IPC: G06F16/432 , G06F16/483 , G06F16/45 , G06N3/048 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
-
-
-
-
-
-
-
-
-