-
公开(公告)号:CN113837229A
公开(公告)日:2021-12-24
申请号:CN202111005846.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06K9/62 , G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。