-
公开(公告)号:CN118570481A
公开(公告)日:2024-08-30
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
公开(公告)号:CN118570481B
公开(公告)日:2024-12-06
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
公开(公告)号:CN118797562A
公开(公告)日:2024-10-18
申请号:CN202411282777.1
申请日:2024-09-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/25 , G06N3/0464 , G06V10/26 , G06V10/80 , G06V10/82
Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。
-
公开(公告)号:CN116740414B
公开(公告)日:2024-03-01
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN116740414A
公开(公告)日:2023-09-12
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN115082966B
公开(公告)日:2022-12-06
申请号:CN202210866105.X
申请日:2022-07-22
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/774
Abstract: 本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备,应用于图像处理领域,该方法包括:将第一样本图像划分为多个第一图像块,将多个第一图像块划分为多个第一图像块组;分别对各第一图像块组中的部分第一图像块进行掩码处理,得到各第一图像块组中的遮挡图像块和未遮挡图像块;根据每个第一图像块组中的遮挡图像块和未遮挡图像块,对初始行人重识别模型中的编码器进行预训练,得到预训练完成的编码器;根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示,微调初始行人重识别模型的网络参数,得到行人重识别模型。本发明可以提高预训练模型的准确度,从而使得行人重识别模型的精度较高,提高了行人重识别准确度。
-
公开(公告)号:CN115082966A
公开(公告)日:2022-09-20
申请号:CN202210866105.X
申请日:2022-07-22
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/774
Abstract: 本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备,应用于图像处理领域,该方法包括:将第一样本图像划分为多个第一图像块,将多个第一图像块划分为多个第一图像块组;分别对各第一图像块组中的部分第一图像块进行掩码处理,得到各第一图像块组中的遮挡图像块和未遮挡图像块;根据每个第一图像块组中的遮挡图像块和未遮挡图像块,对初始行人重识别模型中的编码器进行预训练,得到预训练完成的编码器;根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示,微调初始行人重识别模型的网络参数,得到行人重识别模型。本发明可以提高预训练模型的准确度,从而使得行人重识别模型的精度较高,提高了行人重识别准确度。
-
-
-
-
-
-