-
公开(公告)号:CN110084245B
公开(公告)日:2020-12-25
申请号:CN201910273048.2
申请日:2019-04-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机及机器学习领域,具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统,旨在解决现有的图像检测方法需要大量有明确标签的训练数据,且标记费时费力的问题。本发明方法包括:获取具有弱监督标记的图像作为输入图像;采用特征提取网络提取输入图像的特征;依据对应的弱监督标记,计算并排序,获得排序后的自顶向下的特征表示;将其输入深度Q网络,计算擦除动作序列;将擦除动作序列作用于输入图像进行擦除操作,直到预设的停止动作,将获得的图像作为检测结果。本发明使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略,能有效地模仿人类的视觉机理,通过迭代方式聚焦显著区域。
-
公开(公告)号:CN111967442A
公开(公告)日:2020-11-20
申请号:CN202010920874.4
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别领域,具体涉及一种基于实例导向检测网络的行人搜索方法、系统、装置,旨在解决现有的行人搜索方法搜索准确率较低问题。本发明方法包括:获取输入视频中第t帧图像,作为第一图像;通过预训练的行人检测模型得到第一图像中各候选区域与第二图像的相似度并排序,排序后选取前N个候选区域作为检测区域;第二图像为预获取的待搜索行人目标的图像;基于各检测区域、第二图像,通过预训练的行人再识别模型得到行人目标的搜索结果。本发明提高了行人目标搜索的准确率。
-
公开(公告)号:CN111723814A
公开(公告)日:2020-09-29
申请号:CN202010507843.6
申请日:2020-06-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于深度学习、计算机视觉及模式识别领域,具体涉及了一种基于跨图像关联的弱监督图像语义分割方法、系统、装置,旨在解决弱监督采用的粗略标注带来的语义分割目标不完整、定位不准确、语义类别判断不准确的问题。本发明包括:通过跨图像间关联关系模块从多张同类别物体的图像间获取互补信息,得到融合特征;基于融合特征进行图像语义分割模型的训练;通过训练好的模型,获取单张输入图像或多张同类别物体图像组的语义分割结果。本发明从粗略的弱图像标注生成像素级的伪图像标注,并在模型训练过程中,从不同图像间获取互补信息,来弥补伪图像标注不全的不足,能够在仅依赖图像级标注的情况下,显著地提高弱监督语义分割模型的性能。
-
公开(公告)号:CN109829959A
公开(公告)日:2019-05-31
申请号:CN201811593470.8
申请日:2018-12-25
Applicant: 中国科学院自动化研究所
IPC: G06T13/40
Abstract: 本发明涉及计算机图形学技术领域,具体涉及一种基于人脸解析的表情编辑方法及装置,旨在解决如何在保持人物身份的前提下,更好地对无表情人脸进行表情编辑的技术问题,为此目的,本发明提供的基于人脸解析的表情编辑方法包括:基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码,获取无表情人脸图像和表情强度控制编码对应的有表情人脸解析图;基于预设的人脸表情编辑网络并且根据有表情人脸解析图和无表情人脸图像,获取目标表情图像。基于上述步骤,可以在保持人物身份信息的前提下,对无表情人脸进行不同强度和不同表情的编辑。
-
公开(公告)号:CN119992047A
公开(公告)日:2025-05-13
申请号:CN202510043445.6
申请日:2025-01-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及目标检测技术领域,公开了一种三维检测物体的候选框优化方法及装置,本发明基于目标检测物体的三维特征,利用目标神经网络预测目标检测物体的多个候选框的位置置信度;优化处理目标检测物体的多个候选框后得到多个候选框的定位确定度概率值,再基于多个候选框的定位确定度概率值,得到目标检测物体的目标检测区域,最后对目标检测区域中多个候选框的位置置信度进行抑制,得到目标检测物体的最优候选框,最终本发明不但有利于精准去除目标检测物体冗余的候选框,而且有利于精准定位目标检测物体。本发明在面对复杂或动态环境时,仍能生成稳定的检测结果,从而在自动驾驶、机器人导航等应用中发挥关键作用。
-
公开(公告)号:CN114708185B
公开(公告)日:2025-03-18
申请号:CN202111258992.4
申请日:2021-10-28
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明属于计算机视觉及模式识别领域,具体涉及了一种基于大数据赋能和模型流的目标检测方法、系统及设备,旨在解决现有目标检测模型受限于训练数据导致模型性能不高,以及在不同应用场景下复用性差的问题。本发明包括:进行所有公开的目标检测数据集的整合,并以任一模型为基准搭建模型采样空间;一次训练中完成涵盖各种运行需求的动态超网;在当前场景中,通过类别的语义信息向量进行模型初始化及子模型筛选;通过当前场景数据进行子模型的预训练,最终获取的目标检测模型可进行当前场景待目标检测图像的目标检测。本发明在构建灵活的动态超网后,使用少量使用当前场景下的标注数据进行快速微调即可获得当前场景下的性能优异的目标检测模型。
-
公开(公告)号:CN119206457A
公开(公告)日:2024-12-27
申请号:CN202411078524.2
申请日:2024-08-07
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心 , 中国科学院自动化研究所
Abstract: 本发明提供一种基于语义可知的3D高斯点的场景理解方法及装置,该方法包括:获取同一场景多个相机视角的图片信息;将所述图片信息输入至预训练的场景理解模型中,获取所述场景理解模型输出的语义可知的3D高斯点,所述语义可知的3D高斯点用于确定3D场景中的语义类别,所述场景理解模型是基于语义呈现损失函数和几何连续性损失函数训练得到的。本发明提供的基于语义可知的3D高斯点的场景理解方法及装置,将同一场景多个相机视角的图片信息输入至预训练的场景理解模型中,通过给每个3D高斯点添加额外的语义属性用于记录该高斯点所属的语义类别,可以提高3D场景理解时语义标签的准确性。
-
公开(公告)号:CN118887643A
公开(公告)日:2024-11-01
申请号:CN202410800983.0
申请日:2024-06-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种目标感知方法、装置、系统、电子设备及存储介质,该方法包括:识别目标移动体的全景环视鸟瞰图像中的第一感知目标,并在全景环视鸟瞰图像中生成用于标注识别到的第一感知目标的第一标识框;将全景环视鸟瞰图像中第一标识框上距离目标移动体的几何中心最近的点,确定为第一标识框对应的目标点,基于第一标识框对应的目标点以及第一边框尺寸阈值,对第一标识框进行裁剪,将裁剪后的第一标识框确定为第二标识框;基于第二标识框,获取第一感知目标在真实世界中的位置信息,作为目标移动体的目标感知结果。本发明提供的目标感知方法、装置、系统、电子设备及存储介质,能提高基于全景鸟瞰图像进行目标感知的准确率。
-
公开(公告)号:CN117911690A
公开(公告)日:2024-04-19
申请号:CN202311797596.8
申请日:2023-12-25
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心有限公司 , 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/774 , G06V10/778
Abstract: 本发明提供一种类别增量式语义分割模型的训练方法和装置,其中方法包括:将样本旧类图像的边缘图像、词嵌入和样本类别文本输入至对偶生成器,得到对偶生成器输出的与样本旧类图像分布一致的第一旧类图像,以及与样本旧类图像结构一致的第二旧类图像;基于原始分割模型,确定第一旧类图像的预测分割图像;基于样本新类图像及其分割图像,以及旧类图像、预测分割图像和样本分割图像,进行模型训练,得到语义分割模型,实现了高质量的旧类图像的生成,减小了生成的旧类图像与样本旧类图像之间的分布差异和结构差异,提升了伪标签的质量,在保护隐私的情况下生成丰富的旧类数据用于数据回放,减轻了灾难性遗忘问题,改善了模型性能。
-
公开(公告)号:CN116912488B
公开(公告)日:2024-02-13
申请号:CN202310706587.7
申请日:2023-06-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种基于多目相机的三维全景分割方法及装置,该方法获取多目相机采集的多个当前帧图像;将多个当前帧图像输入至三维全景分割模型,由图像编码模块提取每个当前帧图像的多尺度图像特征,由视图编码模块基于相机投影关系,将每个当前帧图像的多尺度图像特征转换为三维体素特征,由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合,得到时序融合结果,由体素上采样模块将时序融合结果进行上采样,得到上采样结果,由体素解码模块对上采样结果进行解码,得到并输出全景分割结果。该方法可以得到稠密的三维全景分割结果,实现精细的语义理解。
-
-
-
-
-
-
-
-
-