-
公开(公告)号:CN118212399A
公开(公告)日:2024-06-18
申请号:CN202410337863.1
申请日:2024-03-24
Applicant: 北京工业大学
IPC: G06V10/25 , G06V10/764 , G06V10/80 , G06F16/35 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06V10/82
Abstract: 本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。