-
公开(公告)号:CN118037569A
公开(公告)日:2024-05-14
申请号:CN202410015580.5
申请日:2024-01-04
Applicant: 浙江大学
Inventor: 刘自得
Abstract: 本发明公开了一种基于扩散模型的零样本视频编辑方法,该方法中将待编辑视频经过扩散模型中的自编码器进行编码得到初始值并将该初始值通过空文本反演得到其所对应的初始噪声以及空文本特征;将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块,并修改所述扩散模型中的交叉注意力层的前向过程,以使得交叉注意力层能够得到原始文本描述特征与当前图像计算得到的每个token所对应的注意力图;将所述空文本特征分别与所述原始描述特征、目标文本描述特征按照Batch维度拼接,将拼接得到的特征分别送入扩散模型中,基于所述初始噪声进行视频的生成,并基于所述位置序列得到编辑后的视频。
-
公开(公告)号:CN119676532A
公开(公告)日:2025-03-21
申请号:CN202411822988.X
申请日:2024-12-10
Applicant: 浙江大学
IPC: H04N21/854 , H04N21/81 , H04N21/234 , H04N21/44 , G06T5/70 , G06V10/70
Abstract: 本发明公开了一种多扩散模型融合的图像及视频定制化方法和系统,基于预训练模块、融合模块及生成模块,通过选择融合策略对多个预训练的扩散模型的权重进行融合,基于融合权重生成输出目标内容,相比于现有方法而言,该方法支持融合具有不同架构、训练过程和采样调度器的扩散模型,从而实现无需训练或架构修改即可融合扩散模型;并基于各个扩散模型的互补优势,使得生成的图像和视频在视觉真实感、身份保持和风格一致性方面具有更高质量,并且能为不同场景和用户需求提供定制化解决方案,适用于基于扩散理论的复杂现实场景的应用;本发明还提供了一种多扩散模型融合的图像及视频定制化装置,实现多扩散模型融合的图像及视频定制化方法。
-
公开(公告)号:CN118674828A
公开(公告)日:2024-09-20
申请号:CN202410631985.1
申请日:2024-05-21
Applicant: 浙江大学
IPC: G06T11/60 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06T5/70 , G06T5/60
Abstract: 本发明公开了一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置,属于计算机视觉技术领域,包括:获取图像组的隐向量和加权掩膜,隐向量前向加噪得到带噪隐向量;将带噪隐向量和高斯噪声隐向量以及各自对应的文本描述符同步输入U‑Net反向去噪,分别以带噪隐向量和高斯噪声隐向量的降噪过程作为概念参考路径和概念组合路径;将概念参考路径的键值对特征与概念组合路径的键值对特征组合,采用加权掩膜策略并执行多参考自注意力机制,得到目标图像。本发明能够迅速生成与输入概念高度一致的高质量多概念组合定制图像,无需繁琐的模型参数调整或训练过程,尤其在处理多样化概念类别时表现出卓越的灵活性和鲁棒性。
-
-