一种交互便捷的多功能图像生成方法

    公开(公告)号:CN119444912B

    公开(公告)日:2025-05-16

    申请号:CN202510045748.1

    申请日:2025-01-13

    Abstract: 本发明公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。

    一种交互便捷的多功能图像生成方法

    公开(公告)号:CN119444912A

    公开(公告)日:2025-02-14

    申请号:CN202510045748.1

    申请日:2025-01-13

    Abstract: 本发明公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。

Patent Agency Ranking