-
公开(公告)号:CN102736961B
公开(公告)日:2017-08-29
申请号:CN201210062939.1
申请日:2012-03-09
Applicant: 微软技术许可有限责任公司
IPC: G06F11/14
CPC classification number: G06F11/1469 , G06F3/0641 , G06F11/1451 , G06F11/1453
Abstract: 本发明涉及数据去重复的备份和还原策略。描述了用于备份和还原经优化数据流的技术。块存储包括每个经优化数据流,作为包括至少一个数据块和对应的经优化流元数据的多个块。块存储以已去重复的方式包括数据块。在块存储中储存的经优化数据流被标识以供备份。根据经优化备份技术、未经优化备份技术、项目级备份技术、或数据块标识符备份技术,块存储的至少一部分被储存在备份存储中。在备份存储中储存的经优化数据流可以被还原。文件重构器包括回调模块,该回调模块生成对还原应用的调用以从备份存储中请求经优化流元数据和任何所引用的数据块。文件重构器从所引用的数据块中重构数据流。
-
公开(公告)号:CN105009119B
公开(公告)日:2019-10-01
申请号:CN201480010936.0
申请日:2014-02-26
Applicant: 微软技术许可有限责任公司
IPC: G06F16/174
Abstract: 本公开涉及基于跟踪脏(写修改)范围(用户写)以消除或最小化读和写已优化相邻数据的方式,来部分召回经去重复文件的文件范围。范围的粒度不依赖于用于跟踪范围的任何文件系统粒度。在一个方面,提供了保留数据完整性和崩溃一致性的跟踪数据的懒惰转储清除在一个方面,还描述了在数据去重复系统正在优化打开文件的同时,支持在该文件上的细粒度部分召回。
-
公开(公告)号:CN102414677B
公开(公告)日:2016-04-13
申请号:CN201080018349.8
申请日:2010-04-14
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/30115 , G06F17/30082
Abstract: 描述了通过可扩展的数据处理流水线(包括分类流水线)来处理数据项(例如,文件)以基于数据项的分类来促进对数据项进行管理的技术。发现模块定位要处理的数据项。独立分类流水线获取与每一个被发现的数据项相关联的元数据(属性),而一个或多个分类器基于元数据来分类数据项。独立的策略模块基于其分类将策略应用到每一个数据项。可以基于各种准则来调用多个分类器。预定义排序的分类器、权威性分类器和/或聚合机制处理任何分类冲突。可以提供不同类型的分类器,而每一个分类器都可以对应于自动分类规则;分类器可以直接改变属性(例如,设置分类)或将结果返回到用于改变属性的相对应的规则机制。
-
公开(公告)号:CN102591946B
公开(公告)日:2018-06-12
申请号:CN201110445282.2
申请日:2011-12-27
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30371 , G06F17/30156 , G06F17/30303 , G06F17/30327 , G06F17/3033 , G06F17/30489
Abstract: 本发明涉及使用索引划分和协调来进行数据去重复。所公开的主题涉及将散列索引服务的索引划分为子空间索引的数据去重复技术,其中少于整个散列索引服务的索引被高速缓存以节省存储器。该子空间索引被访问以确定数据块是否已经存在或需要被索引和存储。可基于与要索引的数据相关联的准则(诸如文件类型、数据类型、最后使用时间等)将该索引分成各个子空间。还描述了子空间协调,其中检测子空间中的重复条目以从该去重复系统中移除条目和块。子空间协调可在非高峰时间、当更多系统资源可用时执行,而如果需要资源则可中断协调。要协调的子空间可以基于相似度,包括签名的相似度,每个签名紧凑地表示该子空间的散列。
-
公开(公告)号:CN102591592B
公开(公告)日:2017-05-24
申请号:CN201110436633.3
申请日:2011-12-13
Applicant: 微软技术许可有限责任公司
Inventor: R·卡拉赫 , P·A·奥尔泰安 , C·G·特奥多雷斯库 , M·J·迪克森
IPC: G06F3/06
CPC classification number: G06F17/30159 , G06F3/0604 , G06F3/0608 , G06F3/0638 , G06F3/064 , G06F3/0641 , G06F3/0665 , G06F3/0683 , G06F9/45558 , G06F11/1446 , G06F11/1448 , G06F11/1453 , G06F17/30082 , G06F17/30085 , G06F17/30233 , G06F2009/45579
Abstract: 本发明涉及虚拟化环境中的数据去重复。在此描述了能够在虚拟化环境中对数据进行优化(即,去重复)的技术。例如,可将优化标记(又称,去重复标记)分配给虚拟化存储文件的相应区域。虚拟化存储文件是被配置为如下的文件:被安装成提供用于访问宿主文件的文件系统接口的盘或卷。根据这个示例,每一优化标记指示了相应区域要被优化(即,被去重复)到的程度。在另一个示例中,安装虚拟化存储文件以提供包括宿主文件的虚拟盘。根据这个示例,将优化标记分配给相应宿主文件。进一步根据这个示例,每一优化标记指示了相应宿主文件要被优化到的程度。
-
公开(公告)号:CN109074379A
公开(公告)日:2018-12-21
申请号:CN201780022482.2
申请日:2017-03-17
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F16/1748 , G06F16/1727 , G06F16/182 , G06F16/185
Abstract: 由一个或多个分层引擎执行的文件系统对重影的认识允许文件系统接收和储存指示重影文件区间的分层引擎的标识符和供分层引擎稍后使用的重影的文件区间的存储位置的元数据。文件系统能够接收和处理要读取和写入具有重影的区间的文件的请求。
-
公开(公告)号:CN102880663B
公开(公告)日:2016-06-01
申请号:CN201210320201.0
申请日:2012-08-31
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30159
Abstract: 本发明涉及部分去重复的文件的优化。本公开针对将具有至少一个未去重复的部分的文件变换成完全去重复的文件。针对所述至少一个未去重复部分中的每个,去重复机制在与所述至少一个未去重复部分相关联的文件偏移量之间定义至少一个块。与所述至少一个块相关联的块边界被存储在去重复元数据内。去重复机制使所述至少一个块与所述文件的至少一个去重复部分的块边界对齐。然后,所述至少一个块被提交给块存储。
-
公开(公告)号:CN102567462B
公开(公告)日:2015-11-25
申请号:CN201110386132.9
申请日:2011-11-18
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30233 , G06F17/30091
Abstract: 本发明涉及异类文件优化。此处描述了能够异类地优化文件的技术。异类优化包括非统一地优化文件的诸区域。例如,文件的诸区域可以优化到不同的程度。根据该示例,可以使用不同的优化技术来优化每个区域或区域的子集。一方面,基于与文件的各个区域相关联的访问模式,向该各个区域分配优化标记。文件可以是数据库文件、虚拟化存储文件,或其他合适的文件类型。每个优化标记指示了相应区域将被优化到的程度。每个区域可被优化到由被分配给该区域的相应优化标记所指示的程度。
-
公开(公告)号:CN102667719B
公开(公告)日:2015-08-26
申请号:CN201080052356.X
申请日:2010-10-29
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F21/6218 , G06F2221/2141
Abstract: 描述的是以下技术:根据从资源去耦的策略,通过针对访问请求的用户声明来评估该资源的资源标签来确定对该资源的访问。该资源可以是文件,且该资源标签可通过将该文件分类成分类属性来获取,使得对该文件的改变可改变其资源标签,由此改变哪些用户可访问该文件。基于资源标签的访问评估在逻辑上可与基于常规ACL的访问评估相结合,以便确定是授予还是拒绝对该资源的访问。
-
公开(公告)号:CN102567503B
公开(公告)日:2015-08-26
申请号:CN201110440182.0
申请日:2011-12-15
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30091 , G06F17/3007
Abstract: 本发明描述了用于数据去重复的可扩展流水线。本公开涉及由模块化数据去重复流水线的各阶段/模块执行的数据去重复(优化)。在每个阶段,流水线允许替换、选择或扩展模块,例如,不同的算法可被用于基于正被处理的数据的类型来进行分块化或压缩。此流水线便于安全的数据处理、批处理、和并行处理。流水线是可基于反馈调整的,例如,通过选择模块来提升去重复质量、性能和/或吞吐量。还描述了例如基于文件和/或文件数据集的属性和/或统计属性和/或内部或外部反馈来对文件进行选择、过滤、排名、排序和/或编组,以进行去重复。
-
-
-
-
-
-
-
-
-