-
公开(公告)号:CN115984372A
公开(公告)日:2023-04-18
申请号:CN202211492369.X
申请日:2022-11-25
Applicant: 北京工业大学
IPC: G06T7/73 , G06V10/40 , G06F40/30 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于多层注意力的视觉定位方法,该方法基于三个模块实现:1)属性注意模块:提取目标对象的细粒度的属性信息;2)上下文注意模块:提取目标对象的周围环境信息;3)匹配模块:结合上两个模块提取到的视觉信息与文本信息匹配找到目标对象。根据文本指导编码与文本语义信息一致的视觉信息来与文本更好的匹配,其包括局部注意力与全局注意力,局部注意力通过跨模态交互提取目标对象细粒度的属性信息;全局注意力通过建立文本为指导的图卷积模型抽取目标对象的上下文信息。两个注意力的结合可以全方位的抽取不同角度的视觉信息,来与文本信息更好的匹配。