一种多尺度可变形的人物交互关系检测方法

    公开(公告)号:CN117372706A

    公开(公告)日:2024-01-09

    申请号:CN202310846089.2

    申请日:2023-07-11

    Abstract: 本发明涉及图像理解领域中的中的人物交互关系检测领域,是一种多尺度可变形的人物交互关系检测方法。目前基于Transformer的算法由于缺少多尺度特征,难以准确地从高分辨率特征图中识别小目标,进而影响人物交互关系的预测,多尺度特征的加入虽然可以为人物交互关系检测算法提供新的特征,但是特征的增加也会导致复杂度的急剧增加。为解决上述问题,本发明提出了一种基于QPIC算法改进的人物交互关系检测算法,具体过程为:一:本发明使用Swin Transformer网络增强特征提取能力。二:引入多尺度特征提升了识别准确率。三:将特征向量通过多尺度可变形的注意力模块进行初步编码,采样特征最为显著的特征点,使算法轻量化从而降低计算复杂度。

    一种融合局部和全局特征的图像语义理解算法

    公开(公告)号:CN114708474A

    公开(公告)日:2022-07-05

    申请号:CN202210244292.8

    申请日:2022-03-14

    Abstract: 本发明属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。

Patent Agency Ranking