-
公开(公告)号:CN117011764A
公开(公告)日:2023-11-07
申请号:CN202310880951.1
申请日:2023-07-17
Applicant: 之江实验室 , 中国科学院自动化研究所
IPC: G06V20/40 , G06V20/70 , G06V10/80 , G06V10/764
Abstract: 本申请提供一种多模态视听视频定位方法、装置及存储介质,所述方法包括:获取视听视频;将所述视听视频输入到多模态视听视频定位模型,获取所述多模态视听视频定位模型输出的视频定位结果;所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别和由不同模态间语义表征的不平衡程度确定的损失调制系数,通过训练得到的。本申请提供的多模态视听视频定位方法,通过对视听视频中视觉语义表征和听觉语义表征之间不平衡性进行度量,并根据度量结果对多模态视听视频定位模型进行损失调制,优化模型参数,从而提高了对对视频内弱语义模态数据的定位准确率。
-
公开(公告)号:CN116824583A
公开(公告)日:2023-09-29
申请号:CN202310758807.0
申请日:2023-06-26
Applicant: 之江实验室 , 中国科学院自动化研究所
IPC: G06V20/70 , G06V10/774 , G06V20/40
Abstract: 本发明提供一种弱监督视频场景图生成方法、装置及电子设备,其中,该方法包括:将目标视频输入训练好的弱监督视频场景图生成模型,得到所述目标视频对应的视频场景图;其中,所述弱监督视频场景图生成模型基于样本视频集、所述样本视频集对应的未定位场景图集和文本概念数据集训练得到。可以减少人工标注的工作量,从而有效降低了视频数据标注的成本。
-
公开(公告)号:CN116109973A
公开(公告)日:2023-05-12
申请号:CN202310029012.6
申请日:2023-01-09
Applicant: 杭州海康威视数字技术股份有限公司 , 中国科学院自动化研究所
Abstract: 本申请提供一种物体特征的确定方法、装置及设备,包括:获取样本视频中的关键帧对应的多个目标物体特征,获取样本文本对应的文本特征;基于文本特征和多个目标物体特征确定文本特征与关键帧之间的空间定位分数和时间定位分数;基于空间定位分数和时间定位分数确定第一损失值;从关键帧对应的多个目标物体特征中选取代表性物体特征,确定代表性物体特征对应的特征效应分数;从样本视频的多个关键帧中选取代表性关键帧,确定代表性关键帧对应的帧效应分数;基于特征效应分数和帧效应分数确定第二损失值;基于第一损失值和第二损失值确定目标损失值,基于目标损失值训练得到目标网络模型。通过本申请方案,目标网络模型的训练时间短,资源消耗小。
-
公开(公告)号:CN107911719B
公开(公告)日:2019-11-08
申请号:CN201711034839.7
申请日:2017-10-30
Applicant: 中国科学院自动化研究所
IPC: H04N21/25 , H04N21/258 , H04N21/466 , H04N21/45 , G06F16/735 , G06N3/08
Abstract: 本发明涉及社交媒体的视频挖掘和分析技术领域,具体提供了一种视频动态推荐装置,旨在解决如何准确地刻画用户的动态兴趣和视频推荐。为此目的,本发明中的视频动态推荐装置包括视频推荐模型,其可以依据一个或多个历史时刻的视频信息,获取当前时刻的推荐视频。具体地,视频推荐模型包括语义学习单元、用户行为分析单元、循环神经网络、用户相关性挖掘单元和模型训练单元。上述单元不仅可以充分挖掘视频语义信息、用户兴趣信息和不同用户兴趣的相关程度,还可以依据挖掘到的信息进行视频推荐,即实现了对用户观看视频偏好的动态刻画,提高了视频推荐的准确性,特别是提高了对互联网网络在线视频动态推荐的准确性。
-
公开(公告)号:CN119251727A
公开(公告)日:2025-01-03
申请号:CN202411303403.3
申请日:2024-09-19
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V20/70 , G06V10/764 , G06V10/82 , G06V10/774 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种联合区域感知语义对齐的开放词汇视频场景图生成方法,包括:考虑视频的视觉信息和文本信息,对训练集中的视频进行视频语义学习并进行开放词汇的物体轨迹分类;通过蒸馏方式学习开放词汇知识;构造物体视觉信息,物体运动信息以及物体的视觉联合区域,进行全面的上下文语义理解;利用之前步骤得到的语义感知表征结合可学习的关系令牌来生成视觉关系表征并进行关系预测;将上述所有部分整合到一个统一框架,进行模型整体训练。本发明联合区域感知语义对齐网络,明确地探索了对象轨迹联合区域和关系谓词之间的对齐,从而进行更全面的关系预测。
-
公开(公告)号:CN111126262B
公开(公告)日:2023-04-28
申请号:CN201911341937.4
申请日:2019-12-24
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/778 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及视频信息技术领域,具体涉及一种基于图神经网络的视频精彩片段检测方法和装置。为了解决现有技术对视频精彩片段检测精度低的问题,本发明提出一种方法,包括基于预先获取的待检测视频,通过预设的图像特征提取模型获取待检测视频中每一帧图像的图像特征信息;基于每一帧图像的图像特征信息,构建每一帧图像对应的空间图;根据每一帧图像对应的空间图,通过预设的语义特征提取模型获取每一帧图像中物体的语义特征,并根据每一帧图像中物体的语义特征构建每一帧图像对应的时序图;根据每一帧图像对应的时序图,通过预设的视频片段检测模型获取待检测视频中每一帧图像的用户感兴趣得分。本发明的方法提高了视频精彩片段的检测准确率。
-
公开(公告)号:CN111611950A
公开(公告)日:2020-09-01
申请号:CN202010453220.5
申请日:2020-05-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视频精彩片段检测方法及系统,所述检测方法包括:将待测视频均分为多段视频片段;提取各视频片段的特征,得到对应各视频片段的特征表示;根据各特征表示及各视频片段之间关系,确定各视频片段的表示;利用图网络,更新各视频片段的信息;通过二元赋值向量模型,根据各视频片段的信息,确定各视频片段是否是精彩片段。本发明通过将待测视频均分为多段视频片段,并进行特征提取,得到对应的特征表示,确定并更新各视频片段的表示,进而通过二元赋值向量模型,可直接确定各视频片段是否是精彩片段,从而可提高视频片段的检测精度。
-
公开(公告)号:CN107527355B
公开(公告)日:2020-08-11
申请号:CN201710595279.6
申请日:2017-07-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉领域,提出了一种基于卷积神经网络回归模型的视觉跟踪方法、装置,旨在解决目标跟踪过程被分成部件匹配、目标定位两个独立的步骤,不能做到直接从部件推断目标的位置的问题,该方法包括:S1,在视觉跟踪的初始帧,根据给定的待跟踪目标进行图像块的采样,并划分为多个部件;S2,利用随机梯度下降法对预先构建的基于卷积神经网络回归模型进行训练;S3,在视觉跟踪的后续各帧中,基于所述待跟踪目标在上一帧中出现的位置构造搜索区域,通过所述训练好的基于卷积神经网络回归模型得到当前帧中所述待跟踪目标的位置。本发明将部件与目标定位进行了充分结合,具有较好的鲁棒性。
-
公开(公告)号:CN116630836A
公开(公告)日:2023-08-22
申请号:CN202310240103.4
申请日:2023-03-07
Applicant: 杭州海康威视数字技术股份有限公司 , 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/764 , G06V10/74 , G06N3/0499
Abstract: 本申请实施例提供了一种动作视频识别方法、装置、电子设备及存储介质,电子设备获取待识别视频;提取待识别视频的视频特征;根据视频特征以及预先训练的时空胶囊参数,构建时空胶囊;根据时空胶囊对应的时空部分胶囊与预先训练得到的各已知类别对应的类胶囊之间的关系,构建专用胶囊;基于专用胶囊和各已知类别对应的类胶囊之间的相似程度,确定待识别视频类别。由于时空胶囊可以表示待识别视频时间维度信息和空间维度信息,专用胶囊可以表示待识别视频局部时空维度特征与各已知类别对应的类胶囊构成的整体之间的关系,因此既考虑了待识别视频时间维度和空间维度,又考虑了待识别视频局部与整体之间的关系,可以提高动作视频识别的准确性。
-
公开(公告)号:CN107527355A
公开(公告)日:2017-12-29
申请号:CN201710595279.6
申请日:2017-07-20
Applicant: 中国科学院自动化研究所
CPC classification number: G06T7/223 , G06N3/04 , G06T2207/10016 , G06T2207/20021 , G06T2207/20081 , G06T2207/20084
Abstract: 本发明涉及计算机视觉领域,提出了一种基于卷积神经网络回归模型的视觉跟踪方法、装置,旨在解决目标跟踪过程被分成部件匹配、目标定位两个独立的步骤,不能做到直接从部件推断目标的位置的问题,该方法包括:S1,在视觉跟踪的初始帧,根据给定的待跟踪目标进行图像块的采样,并划分为多个部件;S2,利用随机梯度下降法对预先构建的基于卷积神经网络回归模型进行训练;S3,在视觉跟踪的后续各帧中,基于所述待跟踪目标在上一帧中出现的位置构造搜索区域,通过所述训练好的基于卷积神经网络回归模型得到当前帧中所述待跟踪目标的位置。本发明将部件与目标定位进行了充分结合,具有较好的鲁棒性。
-
-
-
-
-
-
-
-
-