一种基于可解释视觉提示的人物交互行为识别方法和装置

    公开(公告)号:CN119964227A

    公开(公告)日:2025-05-09

    申请号:CN202411725597.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。

    一种基于双层混合专家模型的视频理解方法和装置

    公开(公告)号:CN119964043A

    公开(公告)日:2025-05-09

    申请号:CN202411728301.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。

Patent Agency Ranking