-
公开(公告)号:CN115344532A
公开(公告)日:2022-11-15
申请号:CN202210993824.8
申请日:2022-08-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/14 , G06F16/174 , G06K9/62
Abstract: 本说明书实施例提供一种镜像查重字典的确定方法及装置,基于镜像按照数据块和数据块信息分开存储的格式进行存储,利用元数据中的数据块信息构建查重字典。一方面,利用数据块信息对镜像进行聚类,从而按类别挖掘出类别查重集,另一方面,在排除类别查重集所对应的数据块信息后,对单个镜像还基于历史版本中的数据块信息预测未来可能复用的数据块,将相应的数据块信息构成预测查重集。进一步地,由类别查重集和预测查重集构成镜像的查重字典,从而在镜像更新时,将待存储数据按照数据块和元数据格式处理后,利用数据块信息与镜像的查重字典进行比较。该方式可以基于预测构建查重字典,避免复用的数据块的冗余存储,提高镜像存储、使用效率。