一种基于可解释视觉提示的人物交互行为识别方法和装置

    公开(公告)号:CN119964227A

    公开(公告)日:2025-05-09

    申请号:CN202411725597.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。

    一种基于双层混合专家模型的视频理解方法和装置

    公开(公告)号:CN119964043A

    公开(公告)日:2025-05-09

    申请号:CN202411728301.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。

    基于深度学习的姿态估计方法以及系统

    公开(公告)号:CN119006598B

    公开(公告)日:2025-04-29

    申请号:CN202411457850.4

    申请日:2024-10-18

    Abstract: 本发明提供一种基于深度学习的姿态估计方法以及系统,应用于图像识别领域,其中,方法包括:获取目标图像、自然语言指令以及模板图像;通过预设的提示生成器,分别对自然语言指令与模板图像进行编码,得到文本特征与视觉特征;通过提示生成器的大语言模型,对文本特征与视觉特征进行多模态特征融合,得到多模态特征信息;通过提示生成器的视觉嵌入投影层,基于多模态特征信息,生成姿态提示向量;将目标图像与姿态提示向量输入至预设的姿态估计器,得到姿态估计器输出的关键点热力图;对关键点热力图进行关键点位置解析,得到目标图像的姿态估计结果。通过本发明能够灵活地适应不同的类别的姿态估计需求。

    一种基于大语言模型上下文压缩的长文本生成方法

    公开(公告)号:CN119761306A

    公开(公告)日:2025-04-04

    申请号:CN202411564900.9

    申请日:2024-11-05

    Abstract: 本发明提供一种基于大语言模型上下文压缩的长文本生成方法,方法包括:获取待压缩的上下文文本以及提示词文本,并进行基于压缩的编码处理,得到对应的压缩向量以及提示词嵌入向量;将压缩向量与提示词嵌入向量进行拼接,并对拼接得到的融合特征进行基于自回归的解码处理,得到对应的多个token标识符;根据预设的词表,将token标识符逐一地映射为文本字符串,并将文本字符串组成为压缩上下文文本。通过本申请,将大语言模型处理的上下文长文本进行压缩,解决现有技术中语义模型处理长上下文文本时需要消耗巨大的模型计算资源和数据存储资源的技术问题。

    基于隐式结构特征的生成式指代分割方法及装置

    公开(公告)号:CN118570481B

    公开(公告)日:2024-12-06

    申请号:CN202411062005.7

    申请日:2024-08-05

    Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。

    基于多模态大模型的手术视频处理方法及装置

    公开(公告)号:CN119048947A

    公开(公告)日:2024-11-29

    申请号:CN202410894276.2

    申请日:2024-07-04

    Abstract: 本发明提供一种基于多模态大模型的手术视频处理方法及装置,其中,上述方法包括:确定手术视频以及与手术视频相关的原始问题;对手术视频进行拆分,得到固定帧数的多个视频段落;通过预训练的视频编码器对多个视频段落中的每个视频段落进行编码处理,得到抽象特征;通过预设的多模态转换器将抽象特征的空间维度转换至与预设的多模态大模型的空间维度一致,得到处理后的抽象特征;基于处理后的抽象特征与文字辅助描述进行交叉嵌入,得到混合抽象特征;将混合抽象特征与原始问题输入至预设的多模态大模型,得到预设的多模态大模型输出的文字回答内容。通过本发明能够增强模型的交互性和灵活性。

    基于多模态多形式统一的多轮图文理解与定位方法及装置

    公开(公告)号:CN118797562A

    公开(公告)日:2024-10-18

    申请号:CN202411282777.1

    申请日:2024-09-13

    Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。

    服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品

    公开(公告)号:CN118096944A

    公开(公告)日:2024-05-28

    申请号:CN202410495172.4

    申请日:2024-04-24

    Abstract: 本发明涉及计算机视觉技术领域,提供一种服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,构建方法包括:确定初始模型、原始样本图像和引导提示,引导提示表征各类别服饰的服饰特征;基于原始样本图像包含的服饰类别,对原始样本图像进行服饰特征去除,得到无服饰特征图;基于无服饰特征图和引导提示,对初始模型进行参数迭代,得到服饰编辑模型,服饰编辑模型用于对待编辑图像中各类服饰进行编辑。本发明提供的服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,能够针对人物图像中各种类别的服饰进行编辑,从而提高用户体验感和满意度。

    音频描述信息生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117690415B

    公开(公告)日:2024-04-30

    申请号:CN202410143148.4

    申请日:2024-02-01

    Abstract: 本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,属于信息处理技术领域,所述方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。

Patent Agency Ranking