-
公开(公告)号:CN119444912A
公开(公告)日:2025-02-14
申请号:CN202510045748.1
申请日:2025-01-13
Applicant: 北京邮电大学
IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475
Abstract: 本发明公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。
-
公开(公告)号:CN119444912B
公开(公告)日:2025-05-16
申请号:CN202510045748.1
申请日:2025-01-13
Applicant: 北京邮电大学
IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475
Abstract: 本发明公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。
-