-
公开(公告)号:CN118552659A
公开(公告)日:2024-08-27
申请号:CN202310132466.6
申请日:2023-02-17
Applicant: 华为云计算技术有限公司
IPC: G06T11/60 , G06T11/40 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 一种文本生成图像的方法、模型训练方法及装置,涉及人工智能领域,用于提高处理效率,提升生成图像的质量。本申请设计一种图像Token解码器,在预测图像的Token序列时,采用划分L型区块的方式,按照L型区块邻接的方式,按照顺序迭代解码各个L型区块包括的Token序列。由于下一个预测的L型区块与已预测的Token序列在空间上具有相关性,从而可以提高生成的图像质量。另外,无需每次都预测图像的所有图像块的Token,从而可以提高预测的效率。