-
公开(公告)号:CN117333744B
公开(公告)日:2024-05-28
申请号:CN202311224546.0
申请日:2023-09-21
Applicant: 南通大学
IPC: G06V10/80 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于空间特征融合和原型嵌入的无偏场景图生成方法,属于人工智能和计算机视觉技术领域。解决了场景图生成方法预测关系的准确率不足的技术问题。其技术方案为:用基于原型的表示建模主客体实例及谓词,得到若干实例原型和谓词原型,融合主客体实例原型得到主客体联合特征;建模主客体实例之间的相对位置得到空间特征;融合主客体联合特征与空间特征形成关系表示,与谓词原型进行匹配,获得匹配损失;以匹配损失和距离损失共同度量关系预测与真实谓词类之间的误差。本发明的有益效果为:本发明同时兼顾类内紧凑和类间分离的无偏场景图生成框架和每个实例的相对位置信息,来提高场景图生成中关系预测的准确率。
-
公开(公告)号:CN117333744A
公开(公告)日:2024-01-02
申请号:CN202311224546.0
申请日:2023-09-21
Applicant: 南通大学
IPC: G06V10/80 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于空间特征融合和原型嵌入的无偏场景图生成方法,属于人工智能和计算机视觉技术领域。解决了场景图生成方法预测关系的准确率不足的技术问题。其技术方案为:用基于原型的表示建模主客体实例及谓词,得到若干实例原型和谓词原型,融合主客体实例原型得到主客体联合特征;建模主客体实例之间的相对位置得到空间特征;融合主客体联合特征与空间特征形成关系表示,与谓词原型进行匹配,获得匹配损失;以匹配损失和距离损失共同度量关系预测与真实谓词类之间的误差。本发明的有益效果为:本发明同时兼顾类内紧凑和类间分离的无偏场景图生成框架和每个实例的相对位置信息,来提高场景图生成中关系预测的准确率。
-
公开(公告)号:CN118298428A
公开(公告)日:2024-07-05
申请号:CN202410348938.6
申请日:2024-03-26
Applicant: 南通大学
IPC: G06V20/70 , G06V10/70 , G06V10/44 , G06V10/82 , G06F18/25 , G06F18/22 , G06N3/0455 , G06N3/0464 , G06N3/048
Abstract: 本发明属于人工智能和计算机视觉技术领域,具体涉及一种基于显著视觉上下文的无偏场景图生成方法。本发明提出了一种基于显著视觉上下文的无偏场景图生成方法,该方法采纳了一种先进的轻量且高效的视觉Transformer模型,用于将图像上下文中的视觉特征编码成显著视觉上下文特征。通过结合卷积编码器和位置感知标记模块,DualToken‑ViT能够分别捕获图像内容的局部细节与全局概览,从而构建出一个高效的注意力机制。本发明通过该模型生成的显著视觉上下文特征为关系预测提供了重要的视觉上下文信息,有助于模型更准确地理解图像内容并预测实例之间的关系。本发明方法有效学习图像上下文的视觉特征,提高了场景图生成模型关系预测的鲁棒性。
-
-