-
公开(公告)号:CN114663879B
公开(公告)日:2023-02-21
申请号:CN202210122800.5
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
IPC: G06V20/64 , G06V10/25 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/048
Abstract: 本发明提供一种目标检测方法、装置、电子设备及存储介质,所述方法包括:获取目标点云序列;将目标点云序列输入到三维目标检测模型,获取目标点云序列对应的三维目标检测结果;三维目标检测模型是通过虚拟样本和真实样本训练得到的;真实样本对应的伪标签是基于第一预测结果和第二预测结果确定的,第一预测结果是通过预训练的三维目标检测模型对真实样本数据进行预测得到的,第二预测结果是通过将第一预测结果沿时间维度传播获取的。本发明实施例通过将第一预测结果沿时间维度传播可以获取第二预测结果,进而基于第一预测结果和第二预测结果可以获取伪标签,可以实现在无人工标注数据的情况下,训练三维目标检测模型,到达较好的检测效果。
-
公开(公告)号:CN114663879A
公开(公告)日:2022-06-24
申请号:CN202210122800.5
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种目标检测方法、装置、电子设备及存储介质,所述方法包括:获取目标点云序列;将目标点云序列输入到三维目标检测模型,获取目标点云序列对应的三维目标检测结果;三维目标检测模型是通过虚拟样本和真实样本训练得到的;真实样本对应的伪标签是基于第一预测结果和第二预测结果确定的,第一预测结果是通过预训练的三维目标检测模型对真实样本数据进行预测得到的,第二预测结果是通过将第一预测结果沿时间维度传播获取的。本发明实施例通过将第一预测结果沿时间维度传播可以获取第二预测结果,进而基于第一预测结果和第二预测结果可以获取伪标签,可以实现在无人工标注数据的情况下,训练三维目标检测模型,到达较好的检测效果。
-
公开(公告)号:CN112257605B
公开(公告)日:2021-07-23
申请号:CN202011146504.6
申请日:2020-10-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。
-
公开(公告)号:CN109800717A
公开(公告)日:2019-05-24
申请号:CN201910060129.4
申请日:2019-01-22
Applicant: 中国科学院自动化研究所
IPC: G06K9/00
Abstract: 本发明涉及一种基于强化学习的行为识别视频帧采样方法及系统,所述行为识别视频帧采样方法包括:从待测试视频提取待测视频帧序列,并从待测视频帧序列中均匀采样T帧待测图像;基于行为识别的基础模型及各帧待测图像,确定对应帧待测图像的待测特征向量和待测行为预测;针对每帧待测图像,将待测特征向量和待测行为预测级联,得到待测状态序列;根据基于长短时记忆网络的智能体及待测状态序列,确定每帧待测图像的待测重要性得分;按照待测重要性得分的大小,从各帧待测图像中选取多帧待测视频的关键帧;根据各关键帧的待测行为预测,得到待测视频的行为预测;根据待测视频的行为预测,确定识别结果,从而降低无关帧带来的负面影响,降低噪声。
-
公开(公告)号:CN118015514A
公开(公告)日:2024-05-10
申请号:CN202410173988.5
申请日:2024-02-07
Applicant: 中国科学院自动化研究所 , 北京邮电大学
IPC: G06V20/40 , G06V10/74 , G06V10/762 , G06V10/82 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/25 , G06N3/0464 , G06N3/0455 , G06N3/048
Abstract: 本发明提供一种视频片段拷贝检测方法、装置、电子设备和存储介质,其中方法包括:确定待检测的视频对;基于所述视频对中两个视频各自的特征向量,确定所述视频对对应的相似度矩阵;基于位置先验信息,以及所述相似度矩阵,进行视频片段拷贝检测,得到所述视频对对应的拷贝片段;所述位置先验信息基于样本视频对进行聚类得到,利用训练数据聚类得到位置先验信息,并将位置先验信息引入到视频片段拷贝检测中,从而使得对视频的拷贝片段的检测更加准确,克服了传统方案中无法并行计算,以及难以处理大规模的数据量,导致检测效率和精度均欠佳的缺陷,实现了检测效率和准确率的提升。
-
公开(公告)号:CN112257605A
公开(公告)日:2021-01-22
申请号:CN202011146504.6
申请日:2020-10-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。
-
公开(公告)号:CN104079827B
公开(公告)日:2017-12-22
申请号:CN201410301659.0
申请日:2014-06-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种光场成像自动重对焦方法,该方法建立点扩散函数模型和模糊度评价模型,基于以上模型,根据不同对焦深度及其对应重对焦图像估计感兴趣区域的模糊度估计函数,对函数求取极值点获得感兴趣区域对焦深度,最终获得该深度对应的重对焦图像。本发明通过直接估计感兴趣区域的对焦深度实现感兴趣区域的重对焦,克服了现有方法计算冗余度大的弊端,为光场成像在扩大成像景深方面的应用提供了一种快速有效的自动重对焦机制,提高了光场成像感兴趣区域重对焦操作的执行效率,有利于促进光场成像的研究及应用发展。
-
公开(公告)号:CN103841327A
公开(公告)日:2014-06-04
申请号:CN201410067394.2
申请日:2014-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于原始图像的四维光场解码预处理方法,该方法包括以下步骤:利用光场成像装置采集场景原始图像;对于原始图像进行标定,得到原始图像的中心坐标集;利用标定信息对原始图像进行重采样处理,获得子孔径图像阵列;对子孔径图像阵列中的边缘子孔径图像进行去渐晕处理,获得去渐晕后的子孔径图像阵列;利用去渐晕后的子孔径图像阵列完成四维光场解码,得到四维光场的参数化表示。本发明在标定和去渐晕两个关键预处理步骤上突破了传统预处理方法对白图像的依赖限制,提高了光场成像应用灵活性,有助于扩大光场成像的普及应用范围,对促进光场成像应用发展具有积极意义。
-
公开(公告)号:CN116486194A
公开(公告)日:2023-07-25
申请号:CN202310267421.X
申请日:2023-03-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/25
Abstract: 本发明提供一种3D目标检测模型的训练方法及装置,涉及人工智能技术领域,其中所述3D目标检测模型的训练方法包括:获取点云数据集;将点云数据集输入至初始3D目标检测模型,得到与点云数据集对应的初始伪标签;将初始伪标签输入局部通路进行处理,得到与点云数据集对应的局部伪标签;将初始伪标签输入全局通路进行处理,得到与点云数据集对应的全局伪标签;将局部伪标签和全局伪标签进行合并处理,确定与点云数据集对应的目标伪标签;基于点云数据集和目标伪标签对初始3D目标检测模型进行训练,直至达到训练停止条件,得到训练好的3D目标检测模型。通过上述方法,提高了3D目标检测模型的检测精度。
-
公开(公告)号:CN112446905A
公开(公告)日:2021-03-05
申请号:CN202110126538.7
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于实时定位与建图、计算机视觉技术领域,具体涉及一种基于多自由度传感关联的三维实时全景监控方法、系统、装置,旨在解决现有监控技术无法实现大范围三维全景视频监控,监控效率低、效果差的问题。本系统方法包括获取N种不同自由度的传感器的实时观测数据,构建各传感器对应的三维语义地图,作为局部地图;对各传感器产生的局部地图进行整合,得到全景地图,作为第一地图;通过RANSAC算法获取各传感器在第一地图中对应估计的外参矩阵;计算真实的外参矩阵与估计的外参矩阵的误差,对第一地图进行更新,得到待监控场景当前时刻最终获取的全景地图。本发明实现大范围内三维全景视频监控,提高了监控效率,保证了监控的质量与效果。
-
-
-
-
-
-
-
-
-