多模态蕴含增强图像文本检索的方法和系统

    公开(公告)号:CN115712740B

    公开(公告)日:2023-06-06

    申请号:CN202310031393.1

    申请日:2023-01-10

    Applicant: 苏州大学

    Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。

    基于文本的行人搜索任务语义对齐方法及系统

    公开(公告)号:CN114860978A

    公开(公告)日:2022-08-05

    申请号:CN202210493534.7

    申请日:2022-05-07

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于文本的行人搜索任务语义对齐方法及系统,包括将图像和文本的特征输入至特征聚合网络,输出语义对齐后的感知特征,图像和文本的局部特征通过受跨模态局部对齐损失和三元组损失约束的多头注意力模型实现对齐;基于感知特征计算图像和文本的原始相似度;在推理过程中,给定文本查询,根据原始相似度对图像进行排序,获得初始排序列表,对于初始排序列表中的每个图像相似性得到图像的最近邻,并得到文本查询的最近邻,根据两个最近邻计算文本查询与每个图像之间的成对相似度,对图像进行重排序。本发明不需要额外的模型干预和跨模态注意机制,自动获得跨模式语义对齐的感知特征,且通过文本查询重排序的方式提高语义对齐的性能。

    一种基于特征存储的小样本异常检测方法及装置

    公开(公告)号:CN117710772A

    公开(公告)日:2024-03-15

    申请号:CN202311752406.0

    申请日:2023-12-19

    Applicant: 苏州大学

    Inventor: 曾子胤 丁聪 曹敏

    Abstract: 本发明涉及工业异常检测技术领域,尤其是指一种基于特征存储的小样本异常检测方法、装置及计算机可读存储介质。所述方法包括:将数据集分为训练集和测试集;提取训练集的特征存入特征存储库;对训练集中的样本进行数据增强,并构建特征变换网络对特征存储库中的特征进行特征变换,得到映射特征,通过计算数据增强后图像的特征与映射特征的损失函数优化特征变换网络;提取测试集的特征,计算测试集中样本图像的异常分数,确定正常图像和异常图像的分割阈值;计算待检测图像的异常分数,依据分割阈值对待检测图像分类。本发明通过特征变换网络提取原有存储特征的信息,扩大了特征存储库中已有的信息量,提高了小样本异常检测的准确率。

    一种基于大语言模型自身对上下文进行压缩的方法及系统

    公开(公告)号:CN117271780B

    公开(公告)日:2024-02-23

    申请号:CN202311546547.7

    申请日:2023-11-20

    Applicant: 苏州大学

    Abstract: 本发明涉及大语言模型技术领域,公开了一种基于大语言模型自身对上下文进行压缩的方法及系统,包括:获取待压缩文本,添加任务描述、分隔符和压缩槽;当GPU资源紧缺的情况下,利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层,当GPU资源充沛时,预训练大语言模型自身对所述待压缩文本进行压缩;将训练后的大语言模型进行推理,生成文本回复。本发明提供基于大语言模型自身对上下文进行压缩的方法及系统任务提示参与到压缩过程中,可以让压缩后的虚拟字符更具目的性从而生成更好的输出结果。既可以利用现有的大语言模型,也可以将压缩部署在预训练阶段,并且通过大语言模型自身对上下文进行压缩,不需要额外训练压缩器。

    一种优化存储模式的无监督异常检测方法及装置

    公开(公告)号:CN117557872A

    公开(公告)日:2024-02-13

    申请号:CN202410044790.7

    申请日:2024-01-12

    Applicant: 苏州大学

    Abstract: 本发明涉及工业异常检测技术领域,尤其是指一种优化存储模式的无监督异常检测方法、装置及计算机可读存储介质。所述方法包括:将数据集分为训练集和测试集;提取训练集的特征,计算每个补丁的输出特征向量与该补丁的特征存储库中已有特征向量的最近距离,将最近距离最大值对应的输出特征向量存入特征存储库,直到总特征存储库不再变化;对总特征存储库进行子采样;提取测试集的特征,计算测试集中样本图像的异常分数,确定正常图像和异常图像的分割阈值;计算待检测图像的异常分数,依据分割阈值对待检测图像分类。本发明在保证检测性能基本不变的情况下,有效减少了特征存储库占用的内存大小,提高了无监督异常检测的检测效率。

    一种文本视频检索方法及装置

    公开(公告)号:CN117473119A

    公开(公告)日:2024-01-30

    申请号:CN202311811165.2

    申请日:2023-12-27

    Applicant: 苏州大学

    Abstract: 本发明涉及多模态检索领域,公开了一种文本视频检索方法及装置,包括:获取文本样本的编码文本特征与动量文本特征;提取每帧样本图像的编码图像特征与动量图像特征;将每个视频数据多帧样本图像的编码图像特征输入帧选择模块,获取重要性分数;基于动量文本特征与每个动量图像特征的余弦相似度,获取每帧样本图像的相关性分数;构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数;训练直至散度损失函数收敛,获取预先训练好的帧选择模块;利用包含预先训练好的帧选择模块的文本视频检索模型,基于待检测文本及检索视频集,选取每个检索视频数据的K帧优化关键帧,构建优化视频特征,计算与待检测文本的相似性来选取相关视频。

    基于多模态编码器的多模态大语言模型训练方法及系统

    公开(公告)号:CN117218498A

    公开(公告)日:2023-12-12

    申请号:CN202311477951.3

    申请日:2023-11-08

    Applicant: 苏州大学

    Abstract: 本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统,涉及电子信息技术领域,包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成;训练流程包括基于多模态编码器抽取文本指令可知的图像Queries,生成文本回复并计算损失函数;推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互,使抽取的图像特征能够更精准地与输入的文本指令对齐,运用现成模型已有的知识,降低了训练成本,本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。

    融合姿态信息的基于文本的行人图像检索方法和系统

    公开(公告)号:CN116912641A

    公开(公告)日:2023-10-20

    申请号:CN202310534147.8

    申请日:2023-05-12

    Applicant: 苏州大学

    Abstract: 本发明涉及一种融合姿态信息的基于文本的行人图像检索方法和系统,方法包括:获取文本和图像,并将文本、图像划分为若干单词、若干图像块;提取文本的全局特征和每个单词的特征、以及图像的全局特征、每个图像块的特征、若干人体关键点特征;将每个单词的特征、每个图像块的特征进行聚合得到文本局部特征集合、图像局部特征集合;将图像局部特征集合与若干人体关键点特征进行融合得到最终图像局部特征集合;对前述步骤采用的模型进行训练;使用训练好的模型分别提取待检索文本和图像数据集的全局特征与局部特征,并计算相似度,选择相似度最大的若干图像作为检索结果。本发明能够提高检索的准确性。

    基于前提的多粒度跨模态推理方法及装置

    公开(公告)号:CN116258946B

    公开(公告)日:2023-08-11

    申请号:CN202310547450.1

    申请日:2023-05-16

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。

    基于前提的多粒度跨模态推理方法及装置

    公开(公告)号:CN116258946A

    公开(公告)日:2023-06-13

    申请号:CN202310547450.1

    申请日:2023-05-16

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。

Patent Agency Ranking