-
公开(公告)号:CN117372706A
公开(公告)日:2024-01-09
申请号:CN202310846089.2
申请日:2023-07-11
Applicant: 电子科技大学
IPC: G06V10/40 , G06V10/82 , G06V10/77 , G06V10/46 , G06V10/764 , G06V40/20 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及图像理解领域中的中的人物交互关系检测领域,是一种多尺度可变形的人物交互关系检测方法。目前基于Transformer的算法由于缺少多尺度特征,难以准确地从高分辨率特征图中识别小目标,进而影响人物交互关系的预测,多尺度特征的加入虽然可以为人物交互关系检测算法提供新的特征,但是特征的增加也会导致复杂度的急剧增加。为解决上述问题,本发明提出了一种基于QPIC算法改进的人物交互关系检测算法,具体过程为:一:本发明使用Swin Transformer网络增强特征提取能力。二:引入多尺度特征提升了识别准确率。三:将特征向量通过多尺度可变形的注意力模块进行初步编码,采样特征最为显著的特征点,使算法轻量化从而降低计算复杂度。
-
公开(公告)号:CN115346266A
公开(公告)日:2022-11-15
申请号:CN202210710637.4
申请日:2022-06-22
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于骨架的监控视频中人体行为关键节点提取方法。该发明在行为检测领域有一定的通用性,可作为行为检测框架的一个模块。该专利中以打架、跌倒行为作为说明案例,展示对行为关键节点进行提取的方法。针对现有行为检测框架以固定的帧率抽取视频帧的不合理性,本发明提出根据人体的骨架关键点的运动信息动态调整抽取视频帧的位置以及抽取帧率,运动更快的行为节点段抽取更多视频帧。在现有的行为检测框架中加入基于骨架的人体行为关键节点提取模块能够更精准地确定特定行为发生的时空边界,取得更好的行为检测效果。
-
公开(公告)号:CN114708474A
公开(公告)日:2022-07-05
申请号:CN202210244292.8
申请日:2022-03-14
Applicant: 电子科技大学
Abstract: 本发明属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。
-
-