一种基于区间检测的重复数据识别及删除方法

    公开(公告)号:CN115185742A

    公开(公告)日:2022-10-14

    申请号:CN202210776992.1

    申请日:2022-07-04

    Abstract: 本发明公开了一种基于区间检测的重复数据识别及删除方法。随着数据时代和存储领域的飞速发展。数据量的增加导致了存储空间、性能、成本等的低效利用问题。该方法根据重复块的分布情况通过为每个数据段选择一个最优的自适应阈值进行数据重写和引用,以提高恢复性能和备份性能。基于区间检测的重复数据识别及删除方法是通过对数据段涉及的旧容器进行有效容器利用率的自适应区间检测,从两个方向检测容器有效利用率的变化趋势,因此能够更准确地识别旧容器有效利用率的突变区间。此外,该方法使用全局哈希桶数组来记录不同有效利用率的旧容器数量及其引用情况,以便从全局范围内挑选旧容器进行引用,以提高数据恢复性能和数据备份性能。

Patent Agency Ranking