-
公开(公告)号:CN108200483B
公开(公告)日:2020-02-28
申请号:CN201711433810.6
申请日:2017-12-26
Applicant: 中国科学院自动化研究所
IPC: H04N21/84 , H04N21/466 , H04N21/44
Abstract: 本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
-
公开(公告)号:CN109800717A
公开(公告)日:2019-05-24
申请号:CN201910060129.4
申请日:2019-01-22
Applicant: 中国科学院自动化研究所
IPC: G06K9/00
Abstract: 本发明涉及一种基于强化学习的行为识别视频帧采样方法及系统,所述行为识别视频帧采样方法包括:从待测试视频提取待测视频帧序列,并从待测视频帧序列中均匀采样T帧待测图像;基于行为识别的基础模型及各帧待测图像,确定对应帧待测图像的待测特征向量和待测行为预测;针对每帧待测图像,将待测特征向量和待测行为预测级联,得到待测状态序列;根据基于长短时记忆网络的智能体及待测状态序列,确定每帧待测图像的待测重要性得分;按照待测重要性得分的大小,从各帧待测图像中选取多帧待测视频的关键帧;根据各关键帧的待测行为预测,得到待测视频的行为预测;根据待测视频的行为预测,确定识别结果,从而降低无关帧带来的负面影响,降低噪声。
-
公开(公告)号:CN108256627A
公开(公告)日:2018-07-06
申请号:CN201711474426.0
申请日:2017-12-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于机器学习领域,具体涉及一种视听信息互生装置及其基于循环对抗生成网络的训练系统。为了在图像或声音模态缺失或损失时,能够基于已知的图像或声音样本生成缺失或损失的模态信息,本发提供了一种视听信息互生装置,并基于循环对抗生成网络训练视听信息互生装置。在训练过中,通过在模态的高层表示中引入高斯隐变量以解不同模态间样本的结构、信息不对称问题,通过跨模态生成路径之间的权值共享,以充分利用原始模态信息。通过本发明可以更加高效可靠地实现视听模态间的互相生成。
-
公开(公告)号:CN108200483A
公开(公告)日:2018-06-22
申请号:CN201711433810.6
申请日:2017-12-26
Applicant: 中国科学院自动化研究所
IPC: H04N21/84 , H04N21/466 , H04N21/44
Abstract: 本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
-
公开(公告)号:CN101464944B
公开(公告)日:2011-03-16
申请号:CN200710179883.7
申请日:2007-12-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明一种基于统计特征的人群密度分析方法,包括视频输入和帧抽取;从视频帧序列中提取马赛克图像差分MID特征,检测出人群中的细微的运动;检验赛克图像差分MID特征序列时间均匀分布;对具有明显透视现象的人群场景做几何校正,获得图像平面上每个像素对人群密度的贡献因子;对人群空间面积做加权处理,获得人群密度。该方法与现有方法相比,不需要参考背景,也不需要背景建模,能自适应早晚光线的变化,算法比较鲁棒,应用方便;数学模型简单有效,能准确定位人群的空间分布和大小,直观性强;计算量小,适合实时视觉监控。本发明能广泛地应用于公交、地铁和广场等滞留人群密集的公共场所的监控和管理。
-
公开(公告)号:CN101389004B
公开(公告)日:2010-06-09
申请号:CN200710121728.X
申请日:2007-09-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于在线学习的运动目标自动分类方法,对图像序列背景建模和运动目标检测,检测场景变化、覆盖视角、分割场景,提取并聚类特征向量,对区域类别标注;子区域的运动目标个数到某个阈值,根据经过该子区域的所有运动目标区域的特征向量,初始化高斯分布和先验概率,完成分类器初始化;对该子区域的运动目标分类,在线迭代优化分类器参数;将运动目标跟踪过程中的分类结果融合,输出在线学习的运动目标分类结果。用于监控场景中异常检测,对不同类别目标建立规则,提高监控系统安全性能。用于监控场景物体识别,降低识别算法复杂度,提高识别率。用于监控场景语义化理解,识别运动目标的类别,帮助理解场景中发生的行为事件。
-
公开(公告)号:CN101389004A
公开(公告)日:2009-03-18
申请号:CN200710121728.X
申请日:2007-09-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于在线学习的运动目标自动分类方法,对图像序列背景建模和运动目标检测,检测场景变化、覆盖视角、分割场景,提取并聚类特征向量,对区域类别标注;子区域的运动目标个数到某个阈值,根据经过该子区域的所有运动目标区域的特征向量,初始化高斯分布和先验概率,完成分类器初始化;对该子区域的运动目标分类,在线迭代优化分类器参数;将运动目标跟踪过程中的分类结果融合,输出在线学习的运动目标分类结果。用于监控场景中异常检测,对不同类别目标建立规则,提高监控系统安全性能。用于监控场景物体识别,降低识别算法复杂度,提高识别率。用于监控场景语义化理解,识别运动目标的类别,帮助理解场景中发生的行为事件。
-
公开(公告)号:CN119166236B
公开(公告)日:2025-05-09
申请号:CN202411230607.9
申请日:2024-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及计算机领域和人工智能领域,提供一种虚拟场景生成方法及系统,所述虚拟场景生成方法包括:规划智能体接收用户输入的场景生成指令;所述规划智能体根据预设资源库中的插件注释信息,从所述预设资源库中选择用于生成所述目标场景的程序化内容生成插件,生成用于生成所述目标场景的任务计划;执行智能体利用从所述预设资源库中选择的程序化内容生成插件,执行所述任务计划,以生成所述目标场景。本公开可以解决难以提升生成虚拟场景的工作效率的问题,可以自动化地生成目标场景,而无需用户深度参与PCG插件的选择、应用、调整等场景生成过程,提升工作效率。
-
公开(公告)号:CN119379901A
公开(公告)日:2025-01-28
申请号:CN202411331865.6
申请日:2024-09-24
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心 , 中国科学院自动化研究所
IPC: G06T17/00
Abstract: 本发明提供一种基于几何结构的通用3D边界框生成方法及装置,该方法包括:基于预训练的实例分割检测器和2D边界框数据生成初始3D边界框数据;将所述初始3D边界框数据输入至预训练的3D边界框生成模型中,获取所述3D边界框生成模型生成的目标3D边界框数据。本发明提供的基于几何结构的通用3D边界框生成方法及装置,通过将根据2D边界框数据生成的初始3D边界框数据输入到预训练的3D边界框生成模型中,可以得到生成的目标3D边界框数据,能够通过长宽比语义损失函数,边界投影损失函数,点云与边界框对齐损失函数来监督普通3D边界框模型带来的信息丢失问题,可以提高目标3D边界框数据的精确度。
-
公开(公告)号:CN117576390A
公开(公告)日:2024-02-20
申请号:CN202311490143.0
申请日:2023-11-09
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心有限公司 , 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/774 , G06V10/46
Abstract: 本发明提供一种语义分割模型的训练方法、装置、电子设备和存储介质,其中方法包括:基于采样时间戳和样本分割图像,确定带噪分割图像;基于初始分割模型,确定样本图像的图像特征,并基于图像特征,以及采样时间戳和带噪分割图像,确定样本图像对应的预测分割图像;基于样本分割图像和预测分割图像,对初始分割模型进行参数迭代,得到语义分割模型;初始分割模型是在判别式语义分割模型的基础上,结合扩散适配器构建得到的,克服了传统方案中对细节处缺少优化,以及模型参数过大无法与已有的分割模型兼容,导致的模型性能较差的缺陷,能够在不显著增加模型参数的同时,实现对细节处的优化,以及模型性能的提升。
-
-
-
-
-
-
-
-
-