-
公开(公告)号:CN116030156A
公开(公告)日:2023-04-28
申请号:CN202310161883.3
申请日:2023-02-24
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06T11/00 , G06V10/74 , G06V10/774 , G06T5/50
Abstract: 本发明涉及图像处理技术领域,提供了一种图像重建模型的迭代方法和图像重建方法,其中图像重建模型的迭代方法包括:基于原始图像进行掩码,得到多个掩码图像;基于初始图像重建模型,对各个掩码图像中的掩码区域进行重建,得到所述各个掩码图像对应的重建图像;确定各个重建图像中两两重建图像之间的重叠区域,基于两两重建图像中重叠区域的区域特征之间的特征相似度,对所述初始图像重建模型进行参数迭代,得到图像重建模型,解决了传统方案中模型具有高度的不确定性和不一致性的问题,通过自洽机制可以使得不同重建图像之间的重叠区域保持一致,提升了模型的训练效率,同时优化了模型的预测准确率。
-
公开(公告)号:CN114821203A
公开(公告)日:2022-07-29
申请号:CN202210745986.X
申请日:2022-06-29
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06V10/26 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种基于一致性损失的细粒度图像模型训练及识别方法和装置,涉及图像处理领域,该方法包括:获取样本图像对应的变换图像;将所述样本图像输入至图像识别模型,得到所述样本图像对应的第一行向量和第一列向量;将所述变换图像输入至所述图像识别模型,得到所述变换图像对应的第二行向量和第二列向量;根据所述第一行向量、所述第一列向量、所述第二行向量、所述第二列向量和所述样本图像的标注类别,对所述图像识别模型的参数进行调整。提高了图像识别模型的鲁棒性,以及图像识别模型对于图像的识别准确率。
-
公开(公告)号:CN112801238B
公开(公告)日:2021-07-27
申请号:CN202110403926.5
申请日:2021-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
-
公开(公告)号:CN111783754B
公开(公告)日:2020-12-08
申请号:CN202010918876.X
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及了一种基于部位上下文的人体属性图像分类方法、系统和装置,旨在解决现有的人体分类方法忽略了人体属性之间的关系而未考虑人体内在层次结构信息导致分类精确度不足的问题。本发明包括:通过人体属性图像分类模型获取人体属性分类预测图;人体属性图像分类模型先通过特征提取网络提取待测试图像的原始特征图,再基于原始特征图通过属性分类解析网络获取高阶特征图,通过关系聚合网络和关系离散网络分别提取合适的上下文信息,将原始特征图和合适的上下文信息融合后生成人体属性分类预测图。本发明解决了如何从复杂北京中,对不同的属性产生合适的上下文特征的问题,提高了人体图像识别的精确度。
-
公开(公告)号:CN111783754A
公开(公告)日:2020-10-16
申请号:CN202010918876.X
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及了一种基于部位上下文的人体属性图像分类方法、系统和装置,旨在解决现有的人体分类方法忽略了人体属性之间的关系而未考虑人体内在层次结构信息导致分类精确度不足的问题。本发明包括:通过人体属性图像分类模型获取人体属性分类预测图;人体属性图像分类模型先通过特征提取网络提取待测试图像的原始特征图,再基于原始特征图通过属性分类解析网络获取高阶特征图,通过关系聚合网络和关系离散网络分别提取合适的上下文信息,将原始特征图和合适的上下文信息融合后生成人体属性分类预测图。本发明解决了如何从复杂北京中,对不同的属性产生合适的上下文特征的问题,提高了人体图像识别的精确度。
-
公开(公告)号:CN118570481B
公开(公告)日:2024-12-06
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
公开(公告)号:CN118797562A
公开(公告)日:2024-10-18
申请号:CN202411282777.1
申请日:2024-09-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/25 , G06N3/0464 , G06V10/26 , G06V10/80 , G06V10/82
Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。
-
公开(公告)号:CN116740414B
公开(公告)日:2024-03-01
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN116740414A
公开(公告)日:2023-09-12
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN116089652A
公开(公告)日:2023-05-09
申请号:CN202310364413.7
申请日:2023-04-07
Applicant: 中国科学院自动化研究所
IPC: G06F16/78 , G06F18/214
Abstract: 本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备,属于计算机视觉技术领域。该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得目标特征信息;基于目标特征信息,为图像样本集中的各图像样本生成初始伪标签,并以各非离群图像样本为节点构建第一KNN图;以第一KNN图和目标特征信息为训练数据,以初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于目标特征信息,以图像样本集中的各图像样本为节点构建第二KNN图;将第二KNN图输入目标伪标签校正模型,获得校正伪标签;以图像样本集为训练数据,以校正伪标签为监督数据对视觉检索模型进行训练。该方法能提高视觉检索模型的性能。
-
-
-
-
-
-
-
-
-