-
公开(公告)号:CN116800975A
公开(公告)日:2023-09-22
申请号:CN202310727845.X
申请日:2023-06-16
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04N19/42 , H04N19/132 , H04N19/91 , H04N19/124
Abstract: 本发明提供了一种图像压缩处理方法、系统及介质,方法包括:在获取到输入图像后,通过重参化下采样模块得到特征图f2;通过重参化非线性特征增强模块对特征图f2特征进行提取,得到强化的特征图f3;进行重复下采样与非线性增强得到图像的潜在表示y;将潜在表示y进一步压缩数据,得到量化后的潜在表示y’;将量化后的潜在表示转换为比特流;采用熵模型得到码率;通过无损解码模块,将其还原为潜在表示y’;将潜在表示y’输入结构重参化上采样模块,获取特征图g2;将特征图g2输入可重参化非线性特征增强模块,得到特征图g3;经过重参化上采样和非线性增强后获得模型重建图像x’。本发明解决了高性能图像压缩模型难以部署的问题。
-
公开(公告)号:CN119906827A
公开(公告)日:2025-04-29
申请号:CN202510020886.4
申请日:2025-01-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04N19/42 , H04N19/124 , G06T9/00 , H04N19/17
Abstract: 本发明公开一种多模态引导的高保真度图像压缩方法、系统及介质,本发明首先通过预训练好的文本编码器和音频编码器提取与图像特征对齐的文本和音频特征,然后将它们与图像特征输入到多模态特征融合模块中进行融合。该多模态特征融合模块利用仿射变换的方法从空间和通道两个维度提取并融合多模态特征。通过在编码器端使用多模态特征融合方式进行引导,不仅增强了特征的提取和表达能力,还可以更好地预测潜在特征的分布。此外,本发明设计了鉴别器以进行多模态引导的生成对抗训练,从而获得高保真度的图像。
-