-
公开(公告)号:CN102509084A
公开(公告)日:2012-06-20
申请号:CN201110369289.0
申请日:2011-11-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于多示例学习算法的视频恐怖场景识别方法。该方法包含:对视频场景进行镜头分割和关键帧选取,视频场景对应于多示例学习的“包”,镜头对应“包”中的示例,基于镜头和关键帧分别提取视觉特征、音频特征和颜色情感特征组成特征空间,在特征空间中训练相应的多示例学习分类器;对于一个待测试的视频样本,通过结构化分析,提取相关特征,通过训练的分类器的来预测视频样本的类别:恐怖或非恐怖。本发明提出了一种新的颜色情感特征并把此特征应用到恐怖电影场景识别方法中,该方法具有广阔的应用前景。
-
公开(公告)号:CN119169045B
公开(公告)日:2025-05-16
申请号:CN202411283206.X
申请日:2024-09-12
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本公开提供一种基于类脑脉冲的光流估计方法、装置、介质和计算机设备。光流估计方法包括:获取事件相机数据和帧相机数据;通过脉冲神经网络从事件相机数据提取第一特征;通过卷积神经网络从帧相机数据提取第二特征;拼接第一特征和第二特征,以获得第三特征并且利用残差网络对第三特征进行转换,以获得转换特征;利用光流细化网络对转换特征、脉冲神经网络的除了输出层之外的至少一层提取的特征和卷积神经网络的除了输出层之外的至少一层提取的特征进行光流细化,以生成光流场。
-
公开(公告)号:CN116824710B
公开(公告)日:2025-04-29
申请号:CN202310587326.8
申请日:2023-05-23
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V40/40 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种伪造人脸鉴别方法、装置、设备和存储介质,将待鉴别图像输入人脸鉴别模型;获取人脸鉴别模型输出的待鉴别图像对应的鉴别结果;其中,人脸鉴别模型用于获取待鉴别图像的面部单元一致性特征,并基于待鉴别图像的面部单元一致性特征确定待鉴别图像对应的鉴别结果;待鉴别图像的面部单元一致性特征用于表征待鉴别图像的各面部单元相关区域之间的相关性;人脸鉴别模型是基于样本图像和样本图像对应的鉴别标签训练得到的,提升了对于未知造假方法合成的图像的鉴别效果。
-
公开(公告)号:CN119538100A
公开(公告)日:2025-02-28
申请号:CN202510081115.6
申请日:2025-01-17
Applicant: 中国科学院自动化研究所
IPC: G06F18/2415 , G06F18/214 , G06N3/0464 , G06N3/084
Abstract: 本申请公开了一种基于深度时间对齐梯度增强的神经网络的训练方法及装置。所述训练方法包括:获取输入样本数据;将输入样本数据输入到基于深度时间对齐梯度增强的神经网络模型,得到与输入样本数据的类别对应的预测类别概率数据;根据预测类别概率数据和样本标签数据,调整基于深度时间对齐梯度增强的神经网络模型的各个参数,得到训练后的神经网络模型,其中,基于深度时间对齐梯度增强的神经网络模型包括输入层、K个阶段和输出层,第1个阶段至第K‑1个阶段各自包括基于深度时间对齐梯度增强的卷积网络和辅助分类器网络,并且第K个阶段包括基于深度时间对齐梯度增强的卷积网络,其中,K为大于1的正整数。
-
公开(公告)号:CN119537647A
公开(公告)日:2025-02-28
申请号:CN202510104911.7
申请日:2025-01-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06F16/78 , G06F16/75 , G06V10/82 , G06V10/44 , G06V10/80 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种基于顺序提示和检索增强生成的标签序列生成方法,属于数据处理技术领域,所述方法包括:将目标视频输入至标签序列生成模型中,标签序列生成模型在获取到目标视频的帧特征和文本特征之后,对帧特征和文本特征进行特征融合,得到多模态混合特征;基于多模态混合特征,生成目标视频的顺序提示,顺序提示用于按序提示目标视频的重点关注特征;从多个检索系统中检索到相关视频后,基于相关视频的标签,生成提示语句,相关视频是与目标视频相关的视频;基于多模态混合特征、顺序提示和提示语句,生成目标视频的标签序列并输出。本发明不依赖标签集合,可以有效缓解标签长尾问题,提高标签多样性和相关性。
-
公开(公告)号:CN119376397A
公开(公告)日:2025-01-28
申请号:CN202411513196.4
申请日:2024-10-28
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本发明提供基于类脑脉冲强化学习的避障方法及装置,涉及自动化与智能传感技术领域,所述方法包括将机器人的线速度、角速度、目标距离、方向以及雷达数据进行预处理后输入脉冲神经网络,得到机器人的动作;其中,使用强化学习DDPG对脉冲神经网络进行训练,使用评论家网络优化参数,损失值小于一定阈值则得到训练好的脉冲神经网络模型。脉冲神经网络中,目标数据、自身数据由一个全连接层处理,雷达数据由另一个全连接层处理,将两个全连接层输出的融合特征进行加权后再经过全连接层得到机器人动作。本发明实现了在静态复杂场景下的机器人无图避障导航,并提升了导航的性能。
-
公开(公告)号:CN118780985B
公开(公告)日:2024-12-13
申请号:CN202411259633.4
申请日:2024-09-10
Applicant: 中国科学院自动化研究所
IPC: G06T3/4053 , G06T3/4046 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提供了一种图像重建方法、模型训练方法、装置、设备、介质及产品,可以应用于图像超分辨率重建领域。图像重建方法包括:对存在质量损失的退化图像进行特征提取,得到表征图像底层细节的底层图像特征和表征图像退化信息的隐式退化特征;利用隐式退化特征调节器分别对隐式退化特征进行通道级和空间级的扩展;将扩展后的隐式退化特征融入到底层图像特征中,分别得到融合了图像退化信息的通道图像特征和空间图像特征;将通道图像特征和空间图像特征进行特征融合并引入底层图像特征,以对退化图像的高频细节进行恢复;将进行细节恢复后得到的图像特征输入图像超分辨率模块中,输出重建的目标图像,其中,目标图像的分辨率高于退化图像。
-
公开(公告)号:CN118410210B
公开(公告)日:2024-11-19
申请号:CN202410845065.X
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N20/00
Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。
-
公开(公告)号:CN118378153A
公开(公告)日:2024-07-23
申请号:CN202410834192.X
申请日:2024-06-26
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F18/241 , G06N3/0464 , G06N3/049
Abstract: 本发明提供一种地面材质识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述方法包括:采集待识别地面材质引气的压力变化时序数据,将预处理后的压力变化时序数据输入训练好的1D‑SNN模型进行地面材质识别,得到识别结果;其中,1D‑SNN模型是基于1D‑CNN和脉冲神经元构建的,1D‑CNN用于提取压力变化时序数据的局部时序特征,脉冲神经元用于提取压力变化时序数据的全局时序特征。本发明在面对地面材质的多样性和环境的复杂性时,有效提升地面材质识别的准确性和稳定性,进而增强智能车辆的适应性和安全驾驶能力。
-
公开(公告)号:CN116821417A
公开(公告)日:2023-09-29
申请号:CN202311082820.5
申请日:2023-08-28
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F16/783 , G06N3/045 , G06V10/80 , G06V10/82 , G06V20/40
Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通过本发明,解决了视频标签开集生成的问题,提高了模型预测未见标签的能力和拓展性。
-
-
-
-
-
-
-
-
-