生成-熵估计联合的极限图像压缩、解压缩方法及系统

    公开(公告)号:CN117857795B

    公开(公告)日:2024-05-31

    申请号:CN202410251403.7

    申请日:2024-03-06

    Inventor: 毛琪 薛乃夫 张远

    Abstract: 本发明提供一种生成‑熵估计联合的极限图像压缩、解压缩方法及系统,通过将原图像转换为初始量化索引矩阵表示,同时提取原图像的边缘信息,生成掩码并将其施加于初始量化索引矩阵,得到掩蔽后的量化索引矩阵;然后使用多阶段Transformer生成模型进行自回归计算,对掩蔽后的量化索引矩阵进行先验分布建模,将保留的索引压缩至比特流,并使用额外的熵编码器将物体边缘信息压缩至比特流;相应的,在解码端依次通过解码物体边缘信息、生成掩码以恢复掩蔽元素的位置信息,使用多阶段Transformer生成模型计算先验分布、解码保留的索引取值预测对丢弃的索引,以重构处理以获取重建图像。利用本发明能够有效提高编解码器在极低传输带宽下的可用性。

    基于矢量量化索引和生成模型的极限图像压缩方法及系统

    公开(公告)号:CN116527943B

    公开(公告)日:2023-09-12

    申请号:CN202310778269.1

    申请日:2023-06-29

    Abstract: 本发明提供了一种基于矢量量化索引和生成模型的极限图像压缩方法及系统,通过在发送端将源图像输入预设的编码器以获取相应的潜在表示,并对潜在表示在经过K‑means聚类的预训练码本中进行最邻近码本映射,以获取矢量量化索引;之后对初始矢量量化索引进行无损压缩以生成紧凑比特流后传输,在接收端对紧凑比特流解码后,对解码矢量量化索引中丢失的索引进行预测,以获取完整矢量量化索引;而后对完整矢量量化索引进行重构重建处理以获取重建图像。本发明能够实现不同范围的、特征级别的矢量量化,不仅能够提高编码性能,节约传输带宽,还能够在压缩数据传输之后重建出具有高视觉感知的重建图像,提高了编解码器在处理不可靠网络传输方面的鲁棒性。

    基于文生图大模型的图像编辑方法及系统

    公开(公告)号:CN119941928A

    公开(公告)日:2025-05-06

    申请号:CN202510412838.X

    申请日:2025-04-03

    Inventor: 毛琪 陈澜

    Abstract: 本发明提供一种基于文生图大模型的图像编辑方法及系统,通过用户输入描述源图像和编辑图像的文本以及目标编辑区域的掩码,利用文生图大模型进行图像编辑,在潜空间噪声图去噪处理过程的预设时间步内中进行所述潜空间噪声图的优化处理,所述优化处理包括:先将当前步的潜空间噪声图和文本提示输入噪声预测网络;然后提取噪声预测网络中生成的交叉注意力图和自注意力图,并且计算交叉注意力一致性约束和自注意力保留约束;其次,通过反向传播分别计算交叉注意力一致性约束和自注意力保留约束对潜空间噪声图的梯度,并利用自适应时间步调度器更新潜空间噪声图。本发明能够平衡目标图像的保真度和编辑效果。

    生成-熵估计联合的极限图像压缩、解压缩方法及系统

    公开(公告)号:CN117857795A

    公开(公告)日:2024-04-09

    申请号:CN202410251403.7

    申请日:2024-03-06

    Inventor: 毛琪 薛乃夫 张远

    Abstract: 本发明提供一种生成‑熵估计联合的极限图像压缩、解压缩方法及系统,通过将原图像转换为初始量化索引矩阵表示,同时提取原图像的边缘信息,生成掩码并将其施加于初始量化索引矩阵,得到掩蔽后的量化索引矩阵;然后使用多阶段Transformer生成模型进行自回归计算,对掩蔽后的量化索引矩阵进行先验分布建模,将保留的索引压缩至比特流,并使用额外的熵编码器将物体边缘信息压缩至比特流;相应的,在解码端依次通过解码物体边缘信息、生成掩码以恢复掩蔽元素的位置信息,使用多阶段Transformer生成模型计算先验分布、解码保留的索引取值预测对丢弃的索引,以重构处理以获取重建图像。利用本发明能够有效提高编解码器在极低传输带宽下的可用性。

    面向人机混合视觉的可伸缩人脸图像编码方法、系统

    公开(公告)号:CN115880762B

    公开(公告)日:2023-07-21

    申请号:CN202310140101.8

    申请日:2023-02-21

    Abstract: 本发明提供一种面向人机混合视觉的可伸缩人脸图像编码方法,对基本层编码比特流进行解码以获取基本层解码数据,将基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像;在基本层编码比特流的基础上解码中间层编码比特流以获取中间层解码数据,将中间层解码数据输入到StyleGAN生成器中以获取具备属性细节语义,且支持高阶机器视觉任务的中间层解码图像;在基本层编码比特流、中间层编码比特流的基础上解码增强层编码比特流以获取增强层解码数据,并将增强层解码数据输入到StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像,使得解码图像可伸缩地支持机器智能与人类视觉感知,提升不同任务的性能与压缩效率。

    基于多智能体协作框架的情感图像编辑方法及系统

    公开(公告)号:CN119810265A

    公开(公告)日:2025-04-11

    申请号:CN202510265095.8

    申请日:2025-03-07

    Abstract: 本发明提供一种基于多智能体协作框架的情感图像编辑方法及系统,其中的方法包括:预创建阶段,通过策划智能体基于预获取的源图像和目标情感生成初步编辑方案,通过评价智能体根据评价结果调整初步编辑方案,然后再通过编辑智能体根据调整后的初步编辑方案执行初步编辑操作,得到初步编辑图像;优化阶段,通过评价智能体评估初步编辑图像是否有效传达目标情感,并根据没有有效传达目标情感评估结果生成优化编辑指令;编辑智能体根据优化编辑指令迭代更新所述初步编辑图像,直至目标情感得以有效传达。该方法能够实现高效且精准的情感导向图像编辑,提供更灵活的图像编辑和情感表达手段,适用于各类图像处理与创意生成任务。

    面向人机混合视觉的可伸缩人脸图像编码方法、系统

    公开(公告)号:CN115880762A

    公开(公告)日:2023-03-31

    申请号:CN202310140101.8

    申请日:2023-02-21

    Abstract: 本发明提供一种面向人机混合视觉的可伸缩人脸图像编码方法,对基本层编码比特流进行解码以获取基本层解码数据,将基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像;在基本层编码比特流的基础上解码中间层编码比特流以获取中间层解码数据,将中间层解码数据输入到StyleGAN生成器中以获取具备属性细节语义,且支持高阶机器视觉任务的中间层解码图像;在基本层编码比特流、中间层编码比特流的基础上解码增强层编码比特流以获取增强层解码数据,并将增强层解码数据输入到StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像,使得解码图像可伸缩地支持机器智能与人类视觉感知,提升不同任务的性能与压缩效率。

    基于生成模型的人体视频压缩方法、系统

    公开(公告)号:CN115052147A

    公开(公告)日:2022-09-13

    申请号:CN202210445390.8

    申请日:2022-04-26

    Abstract: 本发明提供一种基于生成模型的人体视频压缩方法,首先将源视频序列分为关键帧和其他视频帧;将关键帧输入变分自编码器以获取纹理特征向量,并对关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;再对纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于人体姿态关键点序列生成姿态特征比特流;而后将对纹理特征比特流和姿态特征比特流进行解码所获取的还原纹理特征和还原姿态关键点序列输入预设的生成模型中,以使生成模型对所述还原纹理特征和还原姿态关键点序列进行重建处理以获取人体重建视频,如此,重建视频具有特征可分析性,使用特征压缩的方法也可以显著提高编码性能,节约传输带宽。

    基于矢量量化索引和生成模型的极限图像压缩方法及系统

    公开(公告)号:CN116527943A

    公开(公告)日:2023-08-01

    申请号:CN202310778269.1

    申请日:2023-06-29

    Abstract: 本发明提供了一种基于矢量量化索引和生成模型的极限图像压缩方法及系统,通过在发送端将源图像输入预设的编码器以获取相应的潜在表示,并对潜在表示在经过K‑means聚类的预训练码本中进行最邻近码本映射,以获取矢量量化索引;之后对初始矢量量化索引进行无损压缩以生成紧凑比特流后传输,在接收端对紧凑比特流解码后,对解码矢量量化索引中丢失的索引进行预测,以获取完整矢量量化索引;而后对完整矢量量化索引进行重构重建处理以获取重建图像。本发明能够实现不同范围的、特征级别的矢量量化,不仅能够提高编码性能,节约传输带宽,还能够在压缩数据传输之后重建出具有高视觉感知的重建图像,提高了编解码器在处理不可靠网络传输方面的鲁棒性。

Patent Agency Ranking