-
公开(公告)号:CN119048767A
公开(公告)日:2024-11-29
申请号:CN202411248639.1
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
IPC: G06V10/40 , G01C21/20 , G01C21/00 , G06F18/213 , G06F18/25 , G06V10/42 , G06V10/56 , G06V10/74 , G06V10/44 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08 , G06V20/56
Abstract: 本发明公开了一种基于测试时自适应提示信息的视觉语言导航方法,包括:获取基于自然语言的导航指令和智能体的360度全景视觉观测信息;提取子图像的低频视觉特征并从图像记忆库中选择有价值的信息进行提示;提取导航指令对应的文本特征向量和当前环境的初始状态向量;利用状态向量从视觉特征记忆库中选择历史信息进行提示;将状态向量和指令特征输入视觉‑语言交互模块,生成导航动作选择;根据导航动作选择的预测分数更新全连接层中的归一化层;重复上述内容直至智能体选择停止或达到最大移动步数限制。本发明可以有效增强预训练智能体模型在未知测试环境中的导航性能。
-
公开(公告)号:CN113254716B
公开(公告)日:2022-05-24
申请号:CN202110577336.4
申请日:2021-05-26
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。
-
公开(公告)号:CN113254716A
公开(公告)日:2021-08-13
申请号:CN202110577336.4
申请日:2021-05-26
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。
-
公开(公告)号:CN111126262A
公开(公告)日:2020-05-08
申请号:CN201911341937.4
申请日:2019-12-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及视频信息技术领域,具体涉及一种基于图神经网络的视频精彩片段检测方法和装置。为了解决现有技术对视频精彩片段检测精度低的问题,本发明提出一种方法,包括基于预先获取的待检测视频,通过预设的图像特征提取模型获取待检测视频中每一帧图像的图像特征信息;基于每一帧图像的图像特征信息,构建每一帧图像对应的空间图;根据每一帧图像对应的空间图,通过预设的语义特征提取模型获取每一帧图像中物体的语义特征,并根据每一帧图像中物体的语义特征构建每一帧图像对应的时序图;根据每一帧图像对应的时序图,通过预设的视频片段检测模型获取待检测视频中每一帧图像的用户感兴趣得分。本发明的方法提高了视频精彩片段的检测准确率。
-
公开(公告)号:CN119063736A
公开(公告)日:2024-12-03
申请号:CN202411248358.6
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种多模态感知Mamba的无人机视觉语言导航方法,包括:对文本指令信息建模,提取文本语义特征,使代理能够理解指令上下文内容;对无人机代理捕获的视觉图像以及位置方向进行建模,提取视觉语义和方向语义特征,使其能够感知环境信息;对导航的历史轨迹进行建模,提取历史轨迹特征,使无人机代理能够从历史信息中挖掘关键知识;基于Mamba模型将文本、视觉以及方向三个不同模态的信息融合学习,推理导航动作;将上述所有部分整合到一个统一的框架,进行模型的整体训练。本发明使得模型能够捕获不同模态关键的导航线索,促进多模态融合,提高导航效果。
-
公开(公告)号:CN111611950B
公开(公告)日:2023-05-19
申请号:CN202010453220.5
申请日:2020-05-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视频精彩片段检测方法及系统,所述检测方法包括:将待测视频均分为多段视频片段;提取各视频片段的特征,得到对应各视频片段的特征表示;根据各特征表示及各视频片段之间关系,确定各视频片段的表示;利用图网络,更新各视频片段的信息;通过二元赋值向量模型,根据各视频片段的信息,确定各视频片段是否是精彩片段。本发明通过将待测视频均分为多段视频片段,并进行特征提取,得到对应的特征表示,确定并更新各视频片段的表示,进而通过二元赋值向量模型,可直接确定各视频片段是否是精彩片段,从而可提高视频片段的检测精度。
-
公开(公告)号:CN115424160A
公开(公告)日:2022-12-02
申请号:CN202210451550.X
申请日:2022-04-26
Applicant: 之江实验室 , 中国科学院自动化研究所
Abstract: 本发明提供一种小样本视频动作识别方法及装置,所述方法包括:提取待识别视频的视频特征;将待识别视频的视频特征输入至胶囊图神经网络,得到胶囊图神经网络输出的待识别视频的动作类别;胶囊图神经网络用于基于待识别视频的视频特征以及待识别视频的视频特征与其它视频的视频特征之间的关系,确定待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度,并基于各胶囊的重要程度确定各胶囊的激活值,以及基于各胶囊的激活值确定待识别视频的动作类别。本发明能够进一步提高动作识别的精度。
-
公开(公告)号:CN113128431B
公开(公告)日:2022-08-05
申请号:CN202110448436.7
申请日:2021-04-25
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供一种视频片段检索方法、装置、介质与电子设备。其中,视频片段检索方法包括:将原始视频分割为多个候选片段;提取每个所述候选片段的视觉特征;在获取到查询语句时,解析所述查询语句中的语义特征;将所述语义特征与所述候选片段的视觉特征进行融合,得到所述候选片段的融合特征;基于所述融合特征从所述多个候选片段中检索与所述查询语句匹配的视频片段。通过本公开实施例提供的技术方案,将视觉特征和语义特征进行融合得到融合特征,实现使文本与视觉结构之间互相增强以及相互补充,进一步基于融合特征从候选片段中检索与查询预计匹配的视频片段,有利于提升视频片段检索的精度。
-
公开(公告)号:CN113128431A
公开(公告)日:2021-07-16
申请号:CN202110448436.7
申请日:2021-04-25
Applicant: 北京亮亮视野科技有限公司 , 中国科学院自动化研究所
Abstract: 本公开提供一种视频片段检索方法、装置、介质与电子设备。其中,视频片段检索方法包括:将原始视频分割为多个候选片段;提取每个所述候选片段的视觉特征;在获取到查询语句时,解析所述查询语句中的语义特征;将所述语义特征与所述候选片段的视觉特征进行融合,得到所述候选片段的融合特征;基于所述融合特征从所述多个候选片段中检索与所述查询语句匹配的视频片段。通过本公开实施例提供的技术方案,将视觉特征和语义特征进行融合得到融合特征,实现使文本与视觉结构之间互相增强以及相互补充,进一步基于融合特征从候选片段中检索与查询预计匹配的视频片段,有利于提升视频片段检索的精度。
-
公开(公告)号:CN107911719A
公开(公告)日:2018-04-13
申请号:CN201711034839.7
申请日:2017-10-30
Applicant: 中国科学院自动化研究所
IPC: H04N21/25 , H04N21/258 , H04N21/466 , H04N21/45 , G06F17/30 , G06N3/08
Abstract: 本发明涉及社交媒体的视频挖掘和分析技术领域,具体提供了一种视频动态推荐装置,旨在解决如何准确地刻画用户的动态兴趣和视频推荐。为此目的,本发明中的视频动态推荐装置包括视频推荐模型,其可以依据一个或多个历史时刻的视频信息,获取当前时刻的推荐视频。具体地,视频推荐模型包括语义学习单元、用户行为分析单元、循环神经网络、用户相关性挖掘单元和模型训练单元。上述单元不仅可以充分挖掘视频语义信息、用户兴趣信息和不同用户兴趣的相关程度,还可以依据挖掘到的信息进行视频推荐,即实现了对用户观看视频偏好的动态刻画,提高了视频推荐的准确性,特别是提高了对互联网网络在线视频动态推荐的准确性。
-
-
-
-
-
-
-
-
-