一种基于学习索引的数据重删方法和系统

    公开(公告)号:CN118567562A

    公开(公告)日:2024-08-30

    申请号:CN202410699704.6

    申请日:2024-05-31

    Abstract: 本发明公开了一种基于学习索引的数据重删方法和系统,包括:若数据块请求为写请求,则将数据块写入内存缓存并计算指纹值,将指纹值和逻辑页地址写入LPA‑FP索引表;若内存缓存中的所有数据块的数量达到阈值,则为内存缓存中的所有数据块分配对应的物理页地址,并生成若干个FP‑PPA映射,根据若干个FP‑PPA映射通过分段线性回归计算得到FP‑PPA表达式,将FP‑PPA表达式写入内存缓存和闪存,并将内存缓存中的所有数据块写入闪存,将数据块及其相邻数据块的指纹值保存在带外数据区域;若数据块请求为读请求,则根据逻辑页地址在LPA‑FP索引表中查找指纹值,根据指纹值和FP‑PPA表达式计算出物理页地址并在闪存中查询所要读取的数据块,以减少内存缓存的空间并加快物理页地址的查找速度。

    基于子文件的数据重删方法、装置及可读介质

    公开(公告)号:CN116775588A

    公开(公告)日:2023-09-19

    申请号:CN202310793835.6

    申请日:2023-06-30

    Abstract: 本发明公开了一种基于子文件的数据重删方法、装置及可读介质,获取输入文件,判断输入文件为Office文件或Pdf文件;响应于确定输入文件为Office文件,循环解析Office文件中的局部文件数据,对局部文件数据计算指纹信息,并存入recipe,直至检测到中央目录记录;响应于确定输入文件为Pdf文件,对Pdf文件解析得到stream数据,对stream数据计算指纹信息,并存入recipe;将Office文件中的局部文件数据以及Pdf文件中的stream数据定义为数据块,查询数据块对应的指纹信息是否存在于持久化存储介质的元数据保存结构体数组中,得到查询结果,根据查询结果进行重删,可有效提高重删效率。

    基于变长指纹的数据重删方法、装置及可读介质

    公开(公告)号:CN116820343A

    公开(公告)日:2023-09-29

    申请号:CN202310801832.2

    申请日:2023-06-30

    Abstract: 本发明公开了一种基于变长指纹的数据重删方法、装置及可读介质,对输入文件进行分块,根据数据块的长度采用不同的哈希算法计算数据块对应的指纹;响应于在LRU缓存中查询不到该指纹,则根据该指纹所对应的哈希算法在不同的持久化存储介质中查询;响应于在持久化存储介质中查询到该指纹,将该指纹和元数据存入LRU缓存中,并利用局部性原理将包含该指纹的输入文件中同属于同一持久化存储介质的指纹全部存入LRU缓存中;响应于在持久化存储介质中查询不到该指纹,则构建该指纹的元数据并存储在对应的持久化存储介质,并将该指纹对应的数据块存储在开放容器中,在持久化存储介质中采用对应格式的指纹存储文件对元数据进行分类存储,加快查找。

    一种基于内存重复数据删除的页面聚合重组方法和系统

    公开(公告)号:CN117992361A

    公开(公告)日:2024-05-07

    申请号:CN202410234367.3

    申请日:2024-03-01

    Applicant: 厦门大学

    Abstract: 本发明一种基于内存重复数据删除的页面聚合重组方法和系统,包括:初始化内存重复数据删除的扫描结构及操作所需的数据结构;动态扫描各个进程的虚拟地址空间,释放重复页面并缓存相关项;将重删后留下的只读页表项和共享页面进行聚集;原地将被拆分的大页面重新组合为新大页,并重构新的大页表项。本发明通过对特殊共享项的聚合方法,在不减少共享页面的情况下,通过迁移共享页面和其对应的只读页表项,清理出合适的内存页面进行大页面的重新组合,充分保留由共享页面带来的内存节省,在最大化内存节省的同时提高系统中大页面的数量,达到降低内存占用和提高访存性能的效果。

    基于重复数据删除的闪存性能和可靠性提升方法及系统

    公开(公告)号:CN118092799A

    公开(公告)日:2024-05-28

    申请号:CN202410224135.X

    申请日:2024-02-29

    Applicant: 厦门大学

    Abstract: 本发明一种基于重复数据删除的闪存性能和可靠性提升方法及系统,在固态盘上设置闪存重复数据删除系统的指纹索引表、重复数据删除功能、读写干扰检测功能、读请求位置重定向功能和数据恢复功能;当服务写入请求的时候,通过检测索引表来判断该请求是否需要删除,如果写请求的引用次数达到阈值需要将该数据进行备份;当服务读请求的时候,通过读写干扰模块检测数据读取的过程中是否被正在执行的写请求干扰,如果确定被写请求干扰则通过读请求位置重定向功能访问备份数据的位置。本发明在减少闪存空间开销的基础上,优化了因闪存读写干扰而带来的闪存性能下降问题,同时优化了因重复数据删除技术而导致的数据可靠性问题。

    基于DPU的纠删编解码卸载方法及DPU存储架构

    公开(公告)号:CN117992279A

    公开(公告)日:2024-05-07

    申请号:CN202311805718.3

    申请日:2023-12-26

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于DPU的纠删编解码卸载方法及DPU存储架构,将EC编解码功能分成三个部分,分别为存储数据、读取数据和恢复数据;所有数据的EC编解码与数据分布策略计算都由DPU去实现,CPU主要功能为检测本存储节点各个SSD与DPU的健康状况,与各个SSD空余空间状况。本发明一种基于DPU的EC编解码卸载方法与为其方法设定的一种专用高效率全硬件可实现DPU存储架构,通过DPU能够更快地处理相关数据计算,将CPU从EC编解码相关事务中完全释放。

    一种数据重删方法
    8.
    发明公开

    公开(公告)号:CN119960692A

    公开(公告)日:2025-05-09

    申请号:CN202510043184.8

    申请日:2025-01-10

    Applicant: 厦门大学

    Abstract: 本发明公开了一种数据重删方法,将计算哈希计算任务卸载至DPU内部的硬件加速器,大大提升了哈希计算速度,减少了请求响应时间。由于主机CPU未参与哈希计算,释放了部分计算资源,主机上的其他服务也能使用这部分资源,提高了CPU利用率。并采用一种CPU利用率感知的分块任务卸载方法。每当对象重删任务到达时,检查DPU内部ARM‑CPU的利用率,如果利用率过高,则使用主机CPU分块,然后再将分好的数据块发送至DPU。否则将对象整体发送至DPU,也就是将分块任务和哈希任务一并卸载至DPU。这样既能减少主机CPU的资源消耗,也能避免DPU内部ARM‑CPU负载过高而影响DPU自身的网络任务。

    一种天文数据处理方法
    9.
    发明公开

    公开(公告)号:CN119576881A

    公开(公告)日:2025-03-07

    申请号:CN202411790090.9

    申请日:2024-12-06

    Applicant: 厦门大学

    Abstract: 本发明公开了一种天文数据处理方法,包括以下步骤:对fits文件处理,以使fits文件由行式存储改为列式存储;提取并单独保存元数据,并使除元数据外的主要数据信息不间断的存储;对主要数据信息中的数值矩阵进行降噪处理,并单独保存噪声数据;通过多种预测方式对数值矩阵中除噪声之外的其他元素进行预测处理,并记录压缩率最小的预测方式及记录与其所对应的数值。利用天文数据中的局部性和存在噪声这些特点,对多维数值矩阵应用一种数值预测策略,通过这一预处理提高无损压缩率。首先对fits格式文件的数据排列方式进行重新组织,再对其中占比最大的数值数据进行噪声分离和数值预测,使有效数据更加集中,从而更适合被压缩。

Patent Agency Ranking