基于自适应时空纠缠的视频行为识别方法、系统、设备

    公开(公告)号:CN113435430A

    公开(公告)日:2021-09-24

    申请号:CN202110992358.7

    申请日:2021-08-27

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于自适应时空纠缠的视频行为识别方法、系统、设备,旨在解决现有的行为识别方法未注意到时空线索对不同动作类的差异化影响,导致行为类别识别鲁棒性较差的问题。本方法包括从输入视频流中获取待行为识别的图像,作为输入图像;通过训练好的行为识别模型获取所述输入图像的行为类别;其中,所述行为识别模型基于卷积神经网络构建。本发明提高了行为类别识别的鲁棒性。

    一种基于可解释视觉提示的人物交互行为识别方法和装置

    公开(公告)号:CN119964227A

    公开(公告)日:2025-05-09

    申请号:CN202411725597.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。

    一种基于双层混合专家模型的视频理解方法和装置

    公开(公告)号:CN119964043A

    公开(公告)日:2025-05-09

    申请号:CN202411728301.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。

    基于自适应时空纠缠的视频行为识别方法、系统、设备

    公开(公告)号:CN113435430B

    公开(公告)日:2021-11-09

    申请号:CN202110992358.7

    申请日:2021-08-27

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于自适应时空纠缠的视频行为识别方法、系统、设备,旨在解决现有的行为识别方法未注意到时空线索对不同动作类的差异化影响,导致行为类别识别鲁棒性较差的问题。本方法包括从输入视频流中获取待行为识别的图像,作为输入图像;通过训练好的行为识别模型获取所述输入图像的行为类别;其中,所述行为识别模型基于卷积神经网络构建。本发明提高了行为类别识别的鲁棒性。

    基于空间变换信息传递的人体关键点检测方法与系统

    公开(公告)号:CN111783755A

    公开(公告)日:2020-10-16

    申请号:CN202010918877.4

    申请日:2020-09-04

    Abstract: 本发明涉及计算机视觉领域,具体涉及一种基于空间变换信息传递的人体关键点检测方法与系统,旨在减少空预测、假阳性预测的产生。本发明的检测方法包括:将待检测的人体图像输入对抗网络,提取关键点特征和肢干特征,进而生成关键点第一热度图和肢干热度图;将待检测的人体图像进行降采样,得到降采样后的人体图像;根据降采样后的人体图像、关键点第一热度图、肢干热度图和关键点特征,基于空间变换网络生成经过信息传递修正后的关键点热度图。本发明通过对相邻关键点的空间关系变换和传递补充了人体关键点的预测先验,抑制了遮挡与人体姿态多样性给关键点预测带来的噪声,从而有效减少空预测、假阳性预测的产生。

    多人交互动作生成方法、装置及电子设备

    公开(公告)号:CN119024971B

    公开(公告)日:2025-02-28

    申请号:CN202411517365.1

    申请日:2024-10-29

    Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种多人交互动作生成方法、装置及电子设备。方法包括:获取目标实例的初始运动序列和运动文本描述,目标实例为多人交互实例;将目标实例的初始运动序列加入高斯噪声,得到噪声化的初始运动序列;基于非目标实例的运动序列、空间控制条件和运动文本描述,训练扩散模型,得到训练后的扩散模型;将噪声化的初始运动序列和目标实例的运动文本描述作为训练后的扩散模型的去噪过程的输入,得到目标实例的运动动作和运动轨迹。本发明通过采用上述方法,解决相关技术中的多人交互动作生成方式,无法在保证个体实例动作合理性的同时,确保交互行为的准确性的问题。

    多人交互动作生成方法、装置及电子设备

    公开(公告)号:CN119024971A

    公开(公告)日:2024-11-26

    申请号:CN202411517365.1

    申请日:2024-10-29

    Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种多人交互动作生成方法、装置及电子设备。方法包括:获取目标实例的初始运动序列和运动文本描述,目标实例为多人交互实例;将目标实例的初始运动序列加入高斯噪声,得到噪声化的初始运动序列;基于非目标实例的运动序列、空间控制条件和运动文本描述,训练扩散模型,得到训练后的扩散模型;将噪声化的初始运动序列和目标实例的运动文本描述作为训练后的扩散模型的去噪过程的输入,得到目标实例的运动动作和运动轨迹。本发明通过采用上述方法,解决相关技术中的多人交互动作生成方式,无法在保证个体实例动作合理性的同时,确保交互行为的准确性的问题。

    基于空间变换信息传递的人体关键点检测方法与系统

    公开(公告)号:CN111783755B

    公开(公告)日:2021-01-05

    申请号:CN202010918877.4

    申请日:2020-09-04

    Abstract: 本发明涉及计算机视觉领域,具体涉及一种基于空间变换信息传递的人体关键点检测方法与系统,旨在减少空预测、假阳性预测的产生。本发明的检测方法包括:将待检测的人体图像输入对抗网络,提取关键点特征和肢干特征,进而生成关键点第一热度图和肢干热度图;将待检测的人体图像进行降采样,得到降采样后的人体图像;根据降采样后的人体图像、关键点第一热度图、肢干热度图和关键点特征,基于空间变换网络生成经过信息传递修正后的关键点热度图。本发明通过对相邻关键点的空间关系变换和传递补充了人体关键点的预测先验,抑制了遮挡与人体姿态多样性给关键点预测带来的噪声,从而有效减少空预测、假阳性预测的产生。

Patent Agency Ranking