Patent search ap:("北京邮电大学") AND inv:"宋一晢" Page 1

1.

发明公开
一种交互便捷的多功能图像生成方法有权

公开(公告)号：CN119444912A

公开(公告)日：2025-02-14

申请号：CN202510045748.1

申请日：2025-01-13

Applicant: 北京邮电大学

Inventor： 李珂 , 陈志鹏 , 陈卓 , 杨兰 , 张洪刚 , 宋一晢

IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475

Abstract: 本发明公开了一种交互便捷的多功能图像生成方法，包括：接收输入的图像生成控制条件并预处理；图像生成控制条件包括：文本提示、实体条件图和背景图；通过生成模型对初始噪声图像进行全局引导去噪，获得噪声图像；利用生成模型中的交叉注意力图实现局部控制区域的自适应定位；根据定位后的局部控制区域，对预处理后的实体条件图和背景图进行多层次特征融合，获得多模态编码特征；将多模态编码特征通过视觉控制适配器获得视觉控制特征，与生成模型中的全局中间层特征，共同引导生成模型对噪声图像进行去噪，实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题，显著提升了多模态图像生成的性能和用户体验。

2.

发明授权
一种交互便捷的多功能图像生成方法有权

公开(公告)号：CN119444912B

公开(公告)日：2025-05-16

申请号：CN202510045748.1

申请日：2025-01-13

Applicant: 北京邮电大学

Inventor： 李珂 , 陈志鹏 , 陈卓 , 杨兰 , 张洪刚 , 宋一晢

IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475

Abstract: 本发明公开了一种交互便捷的多功能图像生成方法，包括：接收输入的图像生成控制条件并预处理；图像生成控制条件包括：文本提示、实体条件图和背景图；通过生成模型对初始噪声图像进行全局引导去噪，获得噪声图像；利用生成模型中的交叉注意力图实现局部控制区域的自适应定位；根据定位后的局部控制区域，对预处理后的实体条件图和背景图进行多层次特征融合，获得多模态编码特征；将多模态编码特征通过视觉控制适配器获得视觉控制特征，与生成模型中的全局中间层特征，共同引导生成模型对噪声图像进行去噪，实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题，显著提升了多模态图像生成的性能和用户体验。

Patent Agency Ranking