一种在线备份服务软件中的数据压缩方法

    公开(公告)号:CN101820426B

    公开(公告)日:2012-05-23

    申请号:CN201010152284.8

    申请日:2010-04-22

    Abstract: 本发明公开了一种备份服务软件中的数据压缩方法,属于计算机存储备份服务和计算机数据压缩领域,目的在于提高存储备份服务的效率。在本发明中,提出了在客户端通过两级压缩策略来降低系统负载的方法。上层压缩即为全局压缩,对备份原始文件按照固定大小进行分块,计算每个块的hash值,将此hash值作为数据块的“身份证”,从而保证每个数据块在存储端全局范围内只有一份副本。下层压缩为块级,即通过压缩算法实现数据块内的压缩,进一步地减少了需要通过网络传输的数据量,节省带宽。两级压缩共同作用,不仅提高了备份服务的效率,减少了数据传输量,同时也提高了存储端空间的利用率。

    一种面向云数据分析场景的水平数据分区方法和系统

    公开(公告)号:CN118585585A

    公开(公告)日:2024-09-03

    申请号:CN202410726943.6

    申请日:2024-06-06

    Abstract: 本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。

    一种基于读写分离的重删压缩缓存方法及系统

    公开(公告)号:CN118466844A

    公开(公告)日:2024-08-09

    申请号:CN202410651084.9

    申请日:2024-05-24

    Inventor: 王桦 李一凡 周可

    Abstract: 本发明公开了一种基于读写分离的重删压缩缓存方法,其目的是为了同时优化缓存的读命中率和写入率,从而提高存储系统效率和优化存储介质寿命等;在真实世界工作负载中,读写请求特征的巨大差异会导致共享缓存空间读写请求的相互干扰,进而导致读写性能的显著差异。通过本发明的读写分离技术可以有效地解决该问题,实现对读请求和写请求的针对性优化,并最终实现读写性能的共同提升。

    数据压缩方法、装置、计算机设备及介质

    公开(公告)号:CN117895948A

    公开(公告)日:2024-04-16

    申请号:CN202211228227.2

    申请日:2022-10-09

    Abstract: 本公开提供了一种数据压缩方法、装置、计算机设备及介质。所述数据压缩方法包括:获取待压缩数据;获取云存储载体的属性;基于所述云存储载体的属性和目标性能等级,从多个候选压缩算法中选择一个作为确定的数据压缩算法;基于确定的数据压缩算法,对所述待压缩数据进行压缩,得到压缩后数据,以存储到所述云存储载体上。本公开实施例能够提高云端数据压缩的效果,减少处理耗时。本公开实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

    一种适用于ZNS SSD写放大优化的数据放置方法和系统

    公开(公告)号:CN116974479A

    公开(公告)日:2023-10-31

    申请号:CN202310952292.8

    申请日:2023-07-31

    Abstract: 本发明公开了一种适用于ZNS SSD写放大优化的数据放置方法,其根据写入次数和块寿命,通过两阶段的方式获取块热度值,然后根据块热度值对数据块进行冷热分类,将块热度值相同的数据写入到相同的分区中。为了适应数据热度分布的频繁变化,该方法会及时更新数据块的热度值来调整其所属类别。本发明的基本思路在于,根据数据块的写入次数和块寿命,通过计算加策略的方式获取块热度值,低开销动态识别冷热数据,再根据块热度值进行数据分类放置,减少垃圾回收过程中的数据迁移,降低整体写放大。本发明能够解决现有默认放置法由于并未区分冷热数据,会频繁触发垃圾回收操作,导致严重的写放大,进而影响系统的可用性和可靠性的技术问题。

    一种基于聚类的重复数据检测方法

    公开(公告)号:CN107515931B

    公开(公告)日:2023-04-25

    申请号:CN201710747552.2

    申请日:2017-08-28

    Inventor: 周可 王桦 张攀峰

    Abstract: 本发明公开了一种基于聚类的重复数据检测方法,其主要针对数据相似性较强的数据集类型,通过利用数据集中的数据相似性原理,提高重复数据检测的性能,同时提升数据去重的性能。具体而言,对于数据集中可能的重复数据,本发明利用相似性合并策略,先对检测指纹列表进行分段,每段选出代表性指纹,根据其代表性指纹将不同段分类并合并到不同的指纹容器中。指纹容器从数据集的相似段中收集重复的指纹,以增加数据去重的效率,同时提升去重的性能。指纹容器存储在磁盘上,它可以作为一个整体被写入和读出磁盘,这提高了指纹检索效率并克服了相似段的分段存储的问题。

    模型训练方法、故障定位方法、装置及存储介质

    公开(公告)号:CN115329840A

    公开(公告)日:2022-11-11

    申请号:CN202210804224.2

    申请日:2022-07-07

    Abstract: 本申请提供了一种模型训练方法、故障定位方法、装置及存储介质,该训练方法包括:获取存储服务器集群的多条输入输出记录信息和多条输入输出记录信息对应的组件故障真实结果;确定存储服务器集群中产生每条输入输出记录信息的目标存储服务器,获取目标存储服务器的各个组件的信息,根据各个组件的信息获取各个组件在预设时长内的运行日志和运营数据,根据运行日志和运营数据生成目标向量,将目标向量输入目标神经网络模型,得到每条输入输出记录信息对应的组件故障预测结果;基于多条输入输出记录信息对应的组件故障真实结果和组件故障预测结果训练目标神经网络模型,从而可以通过该模型自动实现故障定位,进而可以提高故障定位效率和精度。

    数据块的缓存方法、装置、设备及存储介质

    公开(公告)号:CN109144431B

    公开(公告)日:2021-11-02

    申请号:CN201811157995.7

    申请日:2018-09-30

    Abstract: 本申请公开了一种数据块的缓存方法、装置、计算机设备及存储介质,属于存储技术领域。所述方法包括:获取访问请求,所述访问请求用于请求访问第一数据块;当所述第一数据块在所述缓存空间中未命中时,检测第二数据块是否满足懒惰条件,所述第二数据块是所述缓存空间中的备选剔除块;当所述第二数据块满足所述懒惰条件时,从所述存储空间访问所述第一数据块且不将所述第二数据块替换出所述缓存空间中。本申请能够极大地延长第二数据块在缓存空间中的停留时长,提高有用数据块的命中率,从而提升存储系统的读写性能。

    一种磁盘故障预测方法、装置、设备及存储介质

    公开(公告)号:CN111782491A

    公开(公告)日:2020-10-16

    申请号:CN201911122229.1

    申请日:2019-11-15

    Abstract: 本发明公开了一种磁盘故障预测方法、装置、设备及存储介质,所述磁盘故障预测方法包括:数据预处理、磁盘故障预测模型的训练及预测;所述数据预处理包括:将收集到的SMART数据预处理为图像形式的二维表示;所述磁盘故障预测模型的训练及预测包括:利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。本发明的磁盘故障预测方法可以对磁盘使用的整个生命周期的故障进行有效预测。

    一种分级存储系统中的海量小文件迁移方法

    公开(公告)号:CN106294526B

    公开(公告)日:2019-05-14

    申请号:CN201510362858.7

    申请日:2015-06-26

    Abstract: 本发明公开了一种分级存储系统中海量小文件迁移的方案,属于存储技术领域,解决现有迁移方案中所存在的海量小文件传输效率低问题。本发明的方法,用于具有前端Lustre文件系统和后端HDFS文件系统的分级存储架构中,包括处理文件请求步骤、文件相关性计算步骤、阈值计算步骤、合并小文件步骤、数据重删步骤和数据传输步骤。本发明的装置,包括请求处理模块、文件相关性模块、阈值计算模块、小文件合并模块、数据重删模块和数据传输模块。本发明充分发挥Lustre和HDFS文件系统自身优点,透彻分析小文件归档和读取过程中的性能瓶颈,通过定量的阈值计算选择保证任一时刻采用最优方案进行小文件传输,从而提高海量小文件在两级文件系统之间的迁移效率。

Patent Agency Ranking