-
公开(公告)号:CN116109973A
公开(公告)日:2023-05-12
申请号:CN202310029012.6
申请日:2023-01-09
Applicant: 杭州海康威视数字技术股份有限公司 , 中国科学院自动化研究所
Abstract: 本申请提供一种物体特征的确定方法、装置及设备,包括:获取样本视频中的关键帧对应的多个目标物体特征,获取样本文本对应的文本特征;基于文本特征和多个目标物体特征确定文本特征与关键帧之间的空间定位分数和时间定位分数;基于空间定位分数和时间定位分数确定第一损失值;从关键帧对应的多个目标物体特征中选取代表性物体特征,确定代表性物体特征对应的特征效应分数;从样本视频的多个关键帧中选取代表性关键帧,确定代表性关键帧对应的帧效应分数;基于特征效应分数和帧效应分数确定第二损失值;基于第一损失值和第二损失值确定目标损失值,基于目标损失值训练得到目标网络模型。通过本申请方案,目标网络模型的训练时间短,资源消耗小。
-
公开(公告)号:CN116630836A
公开(公告)日:2023-08-22
申请号:CN202310240103.4
申请日:2023-03-07
Applicant: 杭州海康威视数字技术股份有限公司 , 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/764 , G06V10/74 , G06N3/0499
Abstract: 本申请实施例提供了一种动作视频识别方法、装置、电子设备及存储介质,电子设备获取待识别视频;提取待识别视频的视频特征;根据视频特征以及预先训练的时空胶囊参数,构建时空胶囊;根据时空胶囊对应的时空部分胶囊与预先训练得到的各已知类别对应的类胶囊之间的关系,构建专用胶囊;基于专用胶囊和各已知类别对应的类胶囊之间的相似程度,确定待识别视频类别。由于时空胶囊可以表示待识别视频时间维度信息和空间维度信息,专用胶囊可以表示待识别视频局部时空维度特征与各已知类别对应的类胶囊构成的整体之间的关系,因此既考虑了待识别视频时间维度和空间维度,又考虑了待识别视频局部与整体之间的关系,可以提高动作视频识别的准确性。
-
公开(公告)号:CN119048767A
公开(公告)日:2024-11-29
申请号:CN202411248639.1
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
IPC: G06V10/40 , G01C21/20 , G01C21/00 , G06F18/213 , G06F18/25 , G06V10/42 , G06V10/56 , G06V10/74 , G06V10/44 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08 , G06V20/56
Abstract: 本发明公开了一种基于测试时自适应提示信息的视觉语言导航方法,包括:获取基于自然语言的导航指令和智能体的360度全景视觉观测信息;提取子图像的低频视觉特征并从图像记忆库中选择有价值的信息进行提示;提取导航指令对应的文本特征向量和当前环境的初始状态向量;利用状态向量从视觉特征记忆库中选择历史信息进行提示;将状态向量和指令特征输入视觉‑语言交互模块,生成导航动作选择;根据导航动作选择的预测分数更新全连接层中的归一化层;重复上述内容直至智能体选择停止或达到最大移动步数限制。本发明可以有效增强预训练智能体模型在未知测试环境中的导航性能。
-
公开(公告)号:CN113254716B
公开(公告)日:2022-05-24
申请号:CN202110577336.4
申请日:2021-05-26
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。
-
公开(公告)号:CN113254716A
公开(公告)日:2021-08-13
申请号:CN202110577336.4
申请日:2021-05-26
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。
-
公开(公告)号:CN111126262A
公开(公告)日:2020-05-08
申请号:CN201911341937.4
申请日:2019-12-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及视频信息技术领域,具体涉及一种基于图神经网络的视频精彩片段检测方法和装置。为了解决现有技术对视频精彩片段检测精度低的问题,本发明提出一种方法,包括基于预先获取的待检测视频,通过预设的图像特征提取模型获取待检测视频中每一帧图像的图像特征信息;基于每一帧图像的图像特征信息,构建每一帧图像对应的空间图;根据每一帧图像对应的空间图,通过预设的语义特征提取模型获取每一帧图像中物体的语义特征,并根据每一帧图像中物体的语义特征构建每一帧图像对应的时序图;根据每一帧图像对应的时序图,通过预设的视频片段检测模型获取待检测视频中每一帧图像的用户感兴趣得分。本发明的方法提高了视频精彩片段的检测准确率。
-
公开(公告)号:CN119063736A
公开(公告)日:2024-12-03
申请号:CN202411248358.6
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种多模态感知Mamba的无人机视觉语言导航方法,包括:对文本指令信息建模,提取文本语义特征,使代理能够理解指令上下文内容;对无人机代理捕获的视觉图像以及位置方向进行建模,提取视觉语义和方向语义特征,使其能够感知环境信息;对导航的历史轨迹进行建模,提取历史轨迹特征,使无人机代理能够从历史信息中挖掘关键知识;基于Mamba模型将文本、视觉以及方向三个不同模态的信息融合学习,推理导航动作;将上述所有部分整合到一个统一的框架,进行模型的整体训练。本发明使得模型能够捕获不同模态关键的导航线索,促进多模态融合,提高导航效果。
-
公开(公告)号:CN111611950B
公开(公告)日:2023-05-19
申请号:CN202010453220.5
申请日:2020-05-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视频精彩片段检测方法及系统,所述检测方法包括:将待测视频均分为多段视频片段;提取各视频片段的特征,得到对应各视频片段的特征表示;根据各特征表示及各视频片段之间关系,确定各视频片段的表示;利用图网络,更新各视频片段的信息;通过二元赋值向量模型,根据各视频片段的信息,确定各视频片段是否是精彩片段。本发明通过将待测视频均分为多段视频片段,并进行特征提取,得到对应的特征表示,确定并更新各视频片段的表示,进而通过二元赋值向量模型,可直接确定各视频片段是否是精彩片段,从而可提高视频片段的检测精度。
-
公开(公告)号:CN115424160A
公开(公告)日:2022-12-02
申请号:CN202210451550.X
申请日:2022-04-26
Applicant: 之江实验室 , 中国科学院自动化研究所
Abstract: 本发明提供一种小样本视频动作识别方法及装置,所述方法包括:提取待识别视频的视频特征;将待识别视频的视频特征输入至胶囊图神经网络,得到胶囊图神经网络输出的待识别视频的动作类别;胶囊图神经网络用于基于待识别视频的视频特征以及待识别视频的视频特征与其它视频的视频特征之间的关系,确定待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度,并基于各胶囊的重要程度确定各胶囊的激活值,以及基于各胶囊的激活值确定待识别视频的动作类别。本发明能够进一步提高动作识别的精度。
-
公开(公告)号:CN113128431B
公开(公告)日:2022-08-05
申请号:CN202110448436.7
申请日:2021-04-25
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供一种视频片段检索方法、装置、介质与电子设备。其中,视频片段检索方法包括:将原始视频分割为多个候选片段;提取每个所述候选片段的视觉特征;在获取到查询语句时,解析所述查询语句中的语义特征;将所述语义特征与所述候选片段的视觉特征进行融合,得到所述候选片段的融合特征;基于所述融合特征从所述多个候选片段中检索与所述查询语句匹配的视频片段。通过本公开实施例提供的技术方案,将视觉特征和语义特征进行融合得到融合特征,实现使文本与视觉结构之间互相增强以及相互补充,进一步基于融合特征从候选片段中检索与查询预计匹配的视频片段,有利于提升视频片段检索的精度。
-
-
-
-
-
-
-
-
-