一种指令驱动的个性化时尚图像编辑方法

    公开(公告)号:CN119693505A

    公开(公告)日:2025-03-25

    申请号:CN202510211261.6

    申请日:2025-02-25

    Abstract: 本发明公开了一种指令驱动的个性化时尚图像编辑方法。本发明:1、定义编辑任务的类别,针对不同的编辑任务,构建“原始图像‑参考图像‑目标图像‑文本编辑指令”四元数据组;2、构建目标语义网络,生成遵循编辑指令和原始图像的目标图像语义信息,以此作为编辑模型的人体语义信息;3、构建统一编辑网络,包括构建语义控制网络、增加视觉联合模块以及应用低秩微调模块,实现多项编辑任务使用相同的框架获得对应的编辑能力;4、构建多任务低秩调整模块,通过联合训练使框架具备将不同编辑指令对齐到不同编辑任务的能力。最终,实现不同任务间独立又统一的框架。本发明在构建的特定数据集上进行了实验,在定量和定性上都取得了很好的结果。

    基于多属性驱动的时尚图像个性化生成方法

    公开(公告)号:CN119251348B

    公开(公告)日:2025-03-14

    申请号:CN202411788310.4

    申请日:2024-12-06

    Inventor: 顾晓玲 耿世杰

    Abstract: 本发明公开了基于多属性驱动的时尚图像个性化生成方法,该方法首先使用服装时尚图像数据作为初始图像数据集,并根据初始图像数据集中每张图片的属性进行分类,基于个性化需求对图像进行预处理,得到相似度最高的图像作为真值。其次针对每张图片的不同属性构建特征提取模块,提取时尚元素的属性特征。最后根据属性特征结合真值,在扩散过程中依次通过颜色模块、样式模块、服装结构模块引导扩散模型的生成,输出时尚图像个性化生成结果图。本发明能够有效缓解生成图像过程中可能出现的属性混淆、图像细节缺失等问题,大幅提升图像生成的精度和一致性。

    一种基于交叉注意力重分配的多实例可控图像生成方法

    公开(公告)号:CN118628611A

    公开(公告)日:2024-09-10

    申请号:CN202410772782.4

    申请日:2024-06-17

    Abstract: 本发明公开了一种基于交叉注意力重分配的多实例可控图像生成方法,首先构建ChatGPT代码提示链CoC。然后在ChatGPT中使用代码提示链,生成符合多实例文本提示生成任务中所需要的布局。然后在扩散模型每一个时间步中获得交叉注意力图,并基于布局信息,获得两个引导损失。最后使用损失引导修改当前时间步上的预测噪声,迭代优化的噪声图像最终通过解码器得到生成的多实例可控图像。本发明缓解实体缺失、属性互换、属性泄露、空间布局错误等问题的出现,在图像编辑、个性化生成和虚拟试衣等领域中实现更准确、高质量的图像生成和修改,为用户提供更符合个性化需求的服务。

    一种多网络联合辅助生成式知识蒸馏方法

    公开(公告)号:CN114549901A

    公开(公告)日:2022-05-27

    申请号:CN202210172188.2

    申请日:2022-02-24

    Abstract: 本发明公开了一种多网络联合辅助生成式知识蒸馏方法,首先进行图像分类数据集预处理;然后根据确定的图像分类数据集选择教师网络模型并训练;再根据确定的图像分类数据集选择困难样本生成器G1和学生网络,组成对抗知识蒸馏框架;建立生成对抗知识蒸馏的目标函数;对组建好的对抗知识蒸馏框架进行迭代训练;最后引入简单样本生成器G2,使用困难样本生成器G1和简单样本生成器G2交替调整学生网络,得最终结果。本发明额外引入了一个简单样本生成器,并且简单样本生成器直接复制训练好的困难样本生成器,并没有增加计算量,而且操作简单。在简单样本生成器帮助学生网络回顾简单样本的情况下,最终在目标任务上取得了更好的效果。

    一种基于注意力机制的三维点云上采样方法

    公开(公告)号:CN114549757B

    公开(公告)日:2025-03-11

    申请号:CN202210172212.2

    申请日:2022-02-24

    Abstract: 本发明公开了一种基于注意力机制的三维点云上采样方法,包括以下步骤:步骤1:三维点云数据预处理;步骤2:构建基于注意力机制的三维点云上采样网络结构;步骤3:建立目标点云和输出点云之间的损失函数;步骤4:采用公开数据集进行训练及测试,输出最终结果。本方法提出了基于注意力机制的三维点云上采样网络,进一步加强了对局部特征和邻域关系的学习,并加入残差结构以优化信息传递过程,提高了三维点云上采样的准确率,降低了目标点云与上采样所得点云之间的损失。通过实验结果显然证实了所提出方法的高效性与实用性,本发明方法对三维点云上采样更高效和准确。

    一种基于时序增强扩散模型的视频虚拟试衣方法

    公开(公告)号:CN119398865A

    公开(公告)日:2025-02-07

    申请号:CN202411443269.7

    申请日:2024-10-16

    Abstract: 本发明公开了一种基于时序增强扩散模型的视频虚拟试衣方法,该方法首先基于时尚数据集,构建时尚视频序列、姿态序列、语义序列和深度序列数据组。其次通过使用形变网络将服装依据姿态序列和深度序列逐帧映射到对应形变空间,得到形变服装序列作为扩散网络的指导条件。然后以生成时尚试穿视频为目标,在标准稳定扩散模型的基础上构建时序增强网络以及人体特征注入模块,将形变服装序列与时尚视频序列合成得到虚拟试衣视频序列。最后分别使用扩散损失和感知损失,通过反向传播算法对时序增强网络和人物特征注入模块中的模型参数进行训练。本发明提高用户的使用体验,推动虚拟试穿技术在电商和时尚行业的应用和发展。

    一种基于语义感知神经辐射场的人物面部重演方法

    公开(公告)号:CN117333604A

    公开(公告)日:2024-01-02

    申请号:CN202311372550.1

    申请日:2023-10-23

    Abstract: 本发明公开了一种基于语义感知神经辐射场的人物面部重演方法,包括如下步骤:步骤(1)收集任务的数据,并对数据进行预处理,进而构建数据集;步骤(2)构建基于语义感知的神经辐射场网络模型,步骤(3)利用反向传播算法的基于语义感知的神经辐射场网络模型的参数进行训练,直至整个模型收敛,所述参数的训练是在最小化光度损失和语义损失下,利用预处理后的数据集训练;步骤(4)应用完成训练后的基于语义感知的神经辐射场网络模型生成对应的人脸图像。该方法将表情和姿态参数作为语义感知神经辐射场的输入,精准地控制人物重演图像的生成。经过在NeRFace数据集上的实验验证,取得了出色的定量和定性结果。

    一种基于高斯泼溅的说话人脸视频生成方法

    公开(公告)号:CN119600190A

    公开(公告)日:2025-03-11

    申请号:CN202411575054.0

    申请日:2024-11-06

    Abstract: 本发明公开了一种基于高斯泼溅的说话人脸视频生成方法,主要涉及两阶段。第一阶段使用大规模数据集预训练基于音频生成动态人脸表情系数的模型。该模型基于音频信息和图像信息,学习通用的面部表情和运动模式,能够生成与音频同步的动态面部表情系数。第二阶段,利用目标人物的数据集对预训练模型进行微调,微调完成后基于微调后的模型获取人脸表情系数,进一步训练一个基于人脸表情系数驱动的高斯形变网络来对高斯点云进行形变处理,光栅化后获得目标人物说话图像,最后两阶段模型集成,将逐帧的图像与音频内容同步合并,以实现说话人脸视频生成任务。本发明方法不仅能够快速生成未出现在数据集中的全新音频对应的动态人脸,还能在保持高生成速度的同时确保生成结果的自然性和高质量,实现了音视频同步与表情细节的高度还原。

    基于先验约束反演算法的图像编辑方法

    公开(公告)号:CN119107388B

    公开(公告)日:2025-02-07

    申请号:CN202411586194.8

    申请日:2024-11-08

    Inventor: 顾晓玲 金博航

    Abstract: 本发明公开了基于先验约束反演算法的图像编辑方法,该方法首先用户输入原始文本、编辑文本以及对应图像,利用大型语言模型LLM进行预处理,获得过滤之后的原始文本、编辑文本,以及编辑文本此次编辑的关键词素。其次将预处理后的原始文本和编辑文本,结合关键词素以及对应图像,通过扩散模型,获取编辑后的图像;具体包括:使用预处理后的原始文本以及对应图像输入到扩散模型中得到最终时间步骤的潜空间编码;使潜空间编码以及预处理后的原始文本、编辑文本输入到扩散模型,生成最终的编辑图像。本发明为了增强编辑效果并利用扩散模型的固有特性,引入引导强度选择子,提升了编辑图像的多样性与编辑图像的质量。

    基于先验约束反演算法的图像编辑方法

    公开(公告)号:CN119107388A

    公开(公告)日:2024-12-10

    申请号:CN202411586194.8

    申请日:2024-11-08

    Inventor: 顾晓玲 金博航

    Abstract: 本发明公开了基于先验约束反演算法的图像编辑方法,该方法首先用户输入原始文本、编辑文本以及对应图像,利用大型语言模型LLM进行预处理,获得过滤之后的原始文本、编辑文本,以及编辑文本此次编辑的关键词素。其次将预处理后的原始文本和编辑文本,结合关键词素以及对应图像,通过扩散模型,获取编辑后的图像;具体包括:使用预处理后的原始文本以及对应图像输入到扩散模型中得到最终时间步骤的潜空间编码;使潜空间编码以及预处理后的原始文本、编辑文本输入到扩散模型,生成最终的编辑图像。本发明为了增强编辑效果并利用扩散模型的固有特性,引入引导强度选择子,提升了编辑图像的多样性与编辑图像的质量。

Patent Agency Ranking