-
公开(公告)号:CN104133807B
公开(公告)日:2017-06-23
申请号:CN201410366722.9
申请日:2014-07-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法及装置。所述方法包括:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本发明借助弱大数定律来边缘化特征向量的随机噪声。
-
公开(公告)号:CN104142995A
公开(公告)日:2014-11-12
申请号:CN201410370304.7
申请日:2014-07-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
CPC classification number: G06K9/6267
Abstract: 本发明公开了一种基于视觉属性的社会事件识别方法,该方法包括:步骤101,从训练事件视频集中的视频中提取视觉属性,所述视觉属性用于描述与视频对应的事件相关的属性;其中,所述训练事件视频中的每个视频对应一个已知事件类别;步骤102,基于提升的迭代模型,训练得到视觉属性分类器,并利用所述视觉属性分类器训练得到多个事件弱分类器;步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频进行分类。本发明针对传统的基于属性的视频事件识别方法中需要大量人工给定的语义标签问题,提出了自动的视觉属性挖掘方法;另外针对视频事件识别中视觉属性复杂多变的问题,本发明对同一种视觉属性建立了多种特征表示。
-
公开(公告)号:CN115147342B
公开(公告)日:2025-02-14
申请号:CN202111518629.1
申请日:2021-12-13
Applicant: 中国科学院自动化研究所 , 中国长峰机电技术研究设计院
IPC: G06T7/00 , G06N3/0464 , G06N3/048 , G06N3/08 , G06V10/774 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/762
Abstract: 本发明提供一种视觉关系检测方法、电子设备、存储介质和程序产品,该视觉关系检测方法包括:确定待检测图像,将待检测图像输入至视觉关系检测模型,获得视觉关系检测模型输出的视觉关系检测结果;其中,视觉关系检测模型是基于包括可见类和不可见类的图像训练集训练得到的,可见类为标注有视觉关系标签的图像,不可见类为未标注有视觉关系标签的图像。本发明可以预先学习可见类和不可见类对应的视觉关系,从而实现对包含不可见类的图像进行准确检测,最终实现零样本的视觉关系检测。
-
公开(公告)号:CN111611950B
公开(公告)日:2023-05-19
申请号:CN202010453220.5
申请日:2020-05-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视频精彩片段检测方法及系统,所述检测方法包括:将待测视频均分为多段视频片段;提取各视频片段的特征,得到对应各视频片段的特征表示;根据各特征表示及各视频片段之间关系,确定各视频片段的表示;利用图网络,更新各视频片段的信息;通过二元赋值向量模型,根据各视频片段的信息,确定各视频片段是否是精彩片段。本发明通过将待测视频均分为多段视频片段,并进行特征提取,得到对应的特征表示,确定并更新各视频片段的表示,进而通过二元赋值向量模型,可直接确定各视频片段是否是精彩片段,从而可提高视频片段的检测精度。
-
公开(公告)号:CN115147342A
公开(公告)日:2022-10-04
申请号:CN202111518629.1
申请日:2021-12-13
Applicant: 中国科学院自动化研究所 , 中国长峰机电技术研究设计院
IPC: G06T7/00 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/762
Abstract: 本发明提供一种视觉关系检测方法、电子设备、存储介质和程序产品,该视觉关系检测方法包括:确定待检测图像,将待检测图像输入至视觉关系检测模型,获得视觉关系检测模型输出的视觉关系检测结果;其中,视觉关系检测模型是基于包括可见类和不可见类的图像训练集训练得到的,可见类为标注有视觉关系标签的图像,不可见类为未标注有视觉关系标签的图像。本发明可以预先学习可见类和不可见类对应的视觉关系,从而实现对包含不可见类的图像进行准确检测,最终实现零样本的视觉关系检测。
-
公开(公告)号:CN113705402A
公开(公告)日:2021-11-26
申请号:CN202110950812.2
申请日:2021-08-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种视频行为预测方法、系统、电子设备及存储介质,方法包括:获取待预测的目标视频;将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和未来时刻的状态特征进行动态关系建模,通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。本发明提供的视频行为预测方法、系统、电子设备及存储介质,可以有效地捕捉视频中历史片段和未来片段的多模态动态关系变化,通过知识蒸馏优化后的图卷积神经网络,可以更加准确的预测视频未来发生行为。
-
公开(公告)号:CN104133807A
公开(公告)日:2014-11-05
申请号:CN201410366722.9
申请日:2014-07-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法及装置。所述方法包括:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本发明借助弱大数定律来边缘化特征向量的随机噪声。
-
-
-
-
-
-