-
公开(公告)号:CN117218461A
公开(公告)日:2023-12-12
申请号:CN202311039628.8
申请日:2023-08-16
Applicant: 腾讯科技(深圳)有限公司 , 厦门大学
IPC: G06V10/77 , G06V10/74 , G06V10/764 , G06V10/774 , G06N3/09
Abstract: 本申请公开一种基于图像的视觉关系检测方法及相关装置,将待测图像输入对象检测器进行对象检测,输出多个待测对象和其对应的多个第一对象视觉特征;对象检测器由样本图像和跨模态预训练模型中图像编码器知识蒸馏得到。将两个待测对象形成的待测对象组对应的第一对象视觉特征输入特征提取网络进行关系特征提取,输出第一关系视觉特征;将待测对象组对应的待测对象文本对输入语义编码器,基于多个样本视觉关系和新增视觉关系进行关系语义编码,输出多个第一关系语义特征;语义编码器属于跨模态预训练模型在训练时参数处于冻结状态。通过分类检测器对多个第一关系语义特征分别与第一关系视觉特征进行相似度检测,确定待测对象组对应的目标视觉关系。
-
公开(公告)号:CN117274409A
公开(公告)日:2023-12-22
申请号:CN202211261936.0
申请日:2022-10-14
Applicant: 腾讯科技(深圳)有限公司 , 厦门大学
IPC: G06T11/00 , G06V10/25 , G06V10/40 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请提供一种场景图生成方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及图像处理技术领域;在本申请中,针对待识别图像,获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词,第一目标对象和第二目标对象均为待识别图像中的目标对象;基于至少一类参考谓词中每类参考谓词,分别确定与第一目标对象之间的第一上下文关联度、与第二目标对象之间的第二上下文关联度,与初始谓词之间的谓词相似度;基于第一上下文关联度、第二上下文关联度和谓词相似度,在至少一类参考谓词中,选取出目标谓词;基于第一目标对象、第二目标对象和目标谓词,生成场景图。准确确定出用于表征对象之间关联关系的谓词,提升场景图的准确性。
-
公开(公告)号:CN115861779A
公开(公告)日:2023-03-28
申请号:CN202211506846.3
申请日:2022-11-29
Applicant: 厦门大学
IPC: G06V20/00 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0455
Abstract: 一种基于有效特征表示的无偏场景图生成方法,涉及计算机视觉技术。采用特征提取网络和分类网络解耦的训练策略,利用预训练好的骨干网络提取物体的视觉特征;进行目标检测,利用提取到的物体的视觉特征、物体的位置编码以及物体的类别编码两两配对再次组合编码,得到适用于谓词分类的编码特征;通过一个全连接层进行谓词分类;训练特征提取网络,在推理时不采用全连接层形式的分类网络,通过计算每一类谓词的用于谓词分类的编码特征的均值,根据待分类样本的编码特征与每一类谓词特征均值的余弦相似度进行谓词分类。摒弃全连接层分类器,直接基于谓词特征进行分类,可排除全连接层参数易受长尾数据影响的问题,从而提升场景图生成任务的性能。
-
-