-
公开(公告)号:CN102591946B
公开(公告)日:2018-06-12
申请号:CN201110445282.2
申请日:2011-12-27
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30371 , G06F17/30156 , G06F17/30303 , G06F17/30327 , G06F17/3033 , G06F17/30489
Abstract: 本发明涉及使用索引划分和协调来进行数据去重复。所公开的主题涉及将散列索引服务的索引划分为子空间索引的数据去重复技术,其中少于整个散列索引服务的索引被高速缓存以节省存储器。该子空间索引被访问以确定数据块是否已经存在或需要被索引和存储。可基于与要索引的数据相关联的准则(诸如文件类型、数据类型、最后使用时间等)将该索引分成各个子空间。还描述了子空间协调,其中检测子空间中的重复条目以从该去重复系统中移除条目和块。子空间协调可在非高峰时间、当更多系统资源可用时执行,而如果需要资源则可中断协调。要协调的子空间可以基于相似度,包括签名的相似度,每个签名紧凑地表示该子空间的散列。
-
公开(公告)号:CN102880663B
公开(公告)日:2016-06-01
申请号:CN201210320201.0
申请日:2012-08-31
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30159
Abstract: 本发明涉及部分去重复的文件的优化。本公开针对将具有至少一个未去重复的部分的文件变换成完全去重复的文件。针对所述至少一个未去重复部分中的每个,去重复机制在与所述至少一个未去重复部分相关联的文件偏移量之间定义至少一个块。与所述至少一个块相关联的块边界被存储在去重复元数据内。去重复机制使所述至少一个块与所述文件的至少一个去重复部分的块边界对齐。然后,所述至少一个块被提交给块存储。
-
公开(公告)号:CN102567503B
公开(公告)日:2015-08-26
申请号:CN201110440182.0
申请日:2011-12-15
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30091 , G06F17/3007
Abstract: 本发明描述了用于数据去重复的可扩展流水线。本公开涉及由模块化数据去重复流水线的各阶段/模块执行的数据去重复(优化)。在每个阶段,流水线允许替换、选择或扩展模块,例如,不同的算法可被用于基于正被处理的数据的类型来进行分块化或压缩。此流水线便于安全的数据处理、批处理、和并行处理。流水线是可基于反馈调整的,例如,通过选择模块来提升去重复质量、性能和/或吞吐量。还描述了例如基于文件和/或文件数据集的属性和/或统计属性和/或内部或外部反馈来对文件进行选择、过滤、排名、排序和/或编组,以进行去重复。
-
-