-
公开(公告)号:CN119182953A
公开(公告)日:2024-12-24
申请号:CN202411064734.6
申请日:2024-08-05
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心 , 中国科学院自动化研究所
IPC: H04N21/44 , H04N21/472 , H04N21/81 , G06V20/40 , G06V40/20 , G06V10/26 , G06V10/34 , G06V20/70 , G06V10/44 , G06V10/766 , G06V10/82
Abstract: 本发明提供一种将视频中的人物替换为三维虚拟角色的方法、装置,包括:获取待处理视频,将待处理视频切割为视频帧序列;对视频帧序列进行图像分割处理,得到背景图像帧序列;对视频帧序列中的人物进行动作估计处理,得到视频帧序列中的人物的动作数据;基于动作数据与预设的三维虚拟角色进行动作重定向处理,得到三维虚拟角色运动图像序列,并将三维虚拟角色运动图像序列与背景图像帧序列进行叠加,根据叠加得到目标视频帧序列生成替换人物后的目标视频。通过快速消除前景得到一致的背景图像,并基于视频中人物的动作数据与预设的三维虚拟角色进行动作重定向,从而确保生成的目标视频中人物的外形始终保持一致,提升了生成的目标视频的精度。
-
公开(公告)号:CN119169188A
公开(公告)日:2024-12-20
申请号:CN202411230543.2
申请日:2024-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种场景生成方法、装置、电子设备、存储介质和计算机程序产品,所述场景生成方法包括:获取针对目标场景的描述文本;基于描述文本通过调度代理确定第一计划,其中,第一计划包括用于生成目标场景的对象;基于对象以及预设资源库中与对象对应的预定义知识文档,通过专业代理确定包含子任务的第二计划,其中,子任务与预定义知识文档对应;基于第二计划中的子任务,通过检索代理在预设资源库中进行检索,得到与子任务对应的对象或对象操作接口;基于与子任务对应的对象或对象操作接口,通过执行代理生成目标场景。解决了场景生成的效果不佳问题。
-
公开(公告)号:CN116993976B
公开(公告)日:2024-06-14
申请号:CN202310877057.9
申请日:2023-07-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种引用图像分割模型训练方法及引用图像分割方法,首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中,由文本编码器对文本描述进行特征提取,得到初始文本特征;然后由图像编码器提取图像样本的图像特征,并采用交叉注意力机制运算进行迭代优化与融合,分别得到优化后的目标文本特征和目标跨模态图像融合特征;最后将目标跨模态图像融合特征通过解码器得到分割结果,并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力,减少混淆目标错误匹配的情况发生。
-
公开(公告)号:CN116993976A
公开(公告)日:2023-11-03
申请号:CN202310877057.9
申请日:2023-07-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种引用图像分割模型训练方法及引用图像分割方法,首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中,由文本编码器对文本描述进行特征提取,得到初始文本特征;然后由图像编码器提取图像样本的图像特征,并采用交叉注意力机制运算进行迭代优化与融合,分别得到优化后的目标文本特征和目标跨模态图像融合特征;最后将目标跨模态图像融合特征通过解码器得到分割结果,并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力,减少混淆目标错误匹配的情况发生。
-
公开(公告)号:CN116958668A
公开(公告)日:2023-10-27
申请号:CN202310856207.8
申请日:2023-07-12
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06F16/35 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及计算机视觉领域,提供一种领域泛化方法、装置、电子设备和存储介质,其中方法包括:获取源域样本图像和目标域图像;基于文本提示模板,生成包括领域信息和图像类别信息的领域相关文本;基于图像编码器,提取源域样本图像的视觉特征,并基于文本编码器,提取领域相关文本的文本特征;基于分类器,应用视觉特征对源域样本图像进行图像分类,并应用文本特征对领域相关文本进行文本分类;基于图像分类损失和文本分类损失,对图像编码器和分类器进行参数迭代,参数迭代完成后的图像编码器和分类器用于对目标域图像进行分类。本发明提供的领域泛化方法、装置、电子设备和存储介质,有效地提升了模型的泛化性。
-
公开(公告)号:CN116935107A
公开(公告)日:2023-10-24
申请号:CN202310855205.7
申请日:2023-07-12
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/766 , G06V10/82 , G06V10/40 , G06N3/0464 , G06N3/0895 , G06N3/084
Abstract: 本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法及装置,所述方法包括:将待检测图片输入至目标检测模型,得到目标检测模型输出的目标检测结果;其中,目标检测模型的训练步骤包括:基于待扩展检测类别,搜索待扩展检测类别对应的样本图片;基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将样本图片输入至第一检测模型,得到第一检测模型输出的样本图片对应的第一伪标签;基于样本图片、第一伪标签以及携带有标签的已知类别图片一同对第一检测模型进行训练,得到目标检测模型。本发明能够使得目标检测模型无需额外人工标注即可实现扩展检测类别。
-
公开(公告)号:CN113158909B
公开(公告)日:2023-06-27
申请号:CN202110447553.1
申请日:2021-04-25
Applicant: 中国科学院自动化研究所
IPC: G06V40/20 , G06V10/764 , G06V10/82 , G06V20/40 , G06N3/0464 , G06N3/084
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于多目标跟踪的行为识别轻量化方法、系统、设备,旨在解决现有行为识别方法无法直接识别多目标视频数据中每个个体行为的问题。本发明方法包括:获取输入视频中t时刻的图像帧,作为输入图像;获取多个检测目标分别对应的检测框作为目标检测框;并提取各目标检测框的特征,作为第一特征;利用卡尔曼滤波算法预测t‑1时刻各追踪到的目标在t时刻图像帧中对应的检测框,并提取各检测框的特征,作为第二特征;将第一特征、第二特征进行匹配,获得视频中每个目标的跟踪序列;对各目标的跟踪序列,通过预构建的行为分类模型获取其对应的行为分类结果。本发明实现了多目标视频数据中每个个体行为的识别。
-
公开(公告)号:CN114842287B
公开(公告)日:2022-12-06
申请号:CN202210307546.6
申请日:2022-03-25
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/80 , G06V20/64
Abstract: 本申请提供一种深度引导变形器的单目三维目标检测模型训练方法及装置,该方法包括:根据各个三维包围框中心点坐标及其绝对深度值训练得到第一模型;通过第一模型变换各个原始深度图,得到各个目标深度图,通过移窗视觉变形器网络融合各个目标深度图及其单目三维图像,得到各个高阶图像特征;通过预设锚框提取各个高阶图像特征的各个建议框,通过预设算法计算各个建议框的损失值;根据各个损失值计算全局损失值,结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。本申请实施例提供的深度引导变形器的单目三维目标检测模型训练方法得到携带深度信息的单目三维目标检测模型,通过单目三维目标检测模型提升了单目三维目标的检测性能。
-
公开(公告)号:CN114663536A
公开(公告)日:2022-06-24
申请号:CN202210118720.2
申请日:2022-02-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像压缩方法及装置,所述方法包括:获取待压缩图像;基于预处理规则将所述待压缩图像划分为多个图像块,并将所有所述待压缩图像块输入到预存的目标编码器中,以获取第一隐变量;将所述第一隐变量输入到预存的熵模型中,以获取第二隐变量;将所述第二隐变量输入到预存的目标解码器中,以获取压缩后的图像块,并根据所述压缩后的图像块获取压缩后的图像;本发明所述方法在图像压缩任务中引入Transformer模块并采用对称处理架构进行图像的编码和解码,提高了图像压缩效率。
-
公开(公告)号:CN112446905B
公开(公告)日:2021-05-11
申请号:CN202110126538.7
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于实时定位与建图、计算机视觉技术领域,具体涉及一种基于多自由度传感关联的三维实时全景监控方法、系统、装置,旨在解决现有监控技术无法实现大范围三维全景视频监控,监控效率低、效果差的问题。本系统方法包括获取N种不同自由度的传感器的实时观测数据,构建各传感器对应的三维语义地图,作为局部地图;对各传感器产生的局部地图进行整合,得到全景地图,作为第一地图;通过RANSAC算法获取各传感器在第一地图中对应估计的外参矩阵;计算真实的外参矩阵与估计的外参矩阵的误差,对第一地图进行更新,得到待监控场景当前时刻最终获取的全景地图。本发明实现大范围内三维全景视频监控,提高了监控效率,保证了监控的质量与效果。
-
-
-
-
-
-
-
-
-