基于动态区间扩展的基数估计方法、装置及可读介质

    公开(公告)号:CN118035237A

    公开(公告)日:2024-05-14

    申请号:CN202410166966.6

    申请日:2024-02-06

    Applicant: 厦门大学

    Inventor: 唐璐 肖遥 沈志荣

    Abstract: 本发明公开了一种基于动态区间扩展的基数估计方法、装置及可读介质,包括:构建由m个z位计数器组成的计数器数组;在更新过程中,获取数据包,计算数据包的哈希值并统计其哈希值的前导0的数量,当数据包的哈希值的前导0的数量大于变量阈值r,则确定数据包为被抽样到的数据包,在计数器数组中确定被抽样到的数据包所对应的计数器,当其值为0,则将计数器的值不为0的个数n的值加1;更新被抽样到的数据包所对应的计数器的值,当个数n的值大于或等于固定阈值v,则执行下一轮操作,将变量阈值r加1,根据每一个计数器的值判断其是否减1;根据m、n、r的值查询当前记录到的基数的估计值,能够提高在各种计数范围内的准确性。

    基于混合存储的高性能可扩展哈希索引

    公开(公告)号:CN117112557A

    公开(公告)日:2023-11-24

    申请号:CN202311023921.5

    申请日:2023-08-15

    Applicant: 厦门大学

    Abstract: 基于混合存储的高性能可扩展哈希索引,涉及键值存储与哈希索引。该索引在持久化CPU高速缓存的最下层缓存上建立可调整大小的收集日志池以日志为单位刷写至持久性内存,以弥合键值对大小与持久性内存的写入粒度的差距;在易失内存中建立一个较小的索引,用于分类被刷写收集日志的键值对;采用无搜索插入与自底向上搜索,在保证正确性的前提下将插入前的搜索移除,以减少插入操作的读写混合;无检查的插入带来多次重复键值的插入,在分裂中添加低开销一致性检查,消除重复键对索引空间的占用;搜索大容量的哈希桶增加平均探测次数,在易失内存中存放索引键的特征值采用SIMD技术,在易失内存中吸收无用桶探测,提高索引搜索效率。

    一种高密度3D闪存两步编程方法
    33.
    发明公开

    公开(公告)号:CN116758961A

    公开(公告)日:2023-09-15

    申请号:CN202310832631.9

    申请日:2023-07-08

    Applicant: 厦门大学

    Abstract: 本申请公开了一种高密度3D闪存两步编程方法,涉及闪存编程优化的技术领域,其包括S1:在3D QLC闪存的第二步编程中,识别待编程字线中已经被无效的页面;S2:确定无效页面数量与无效页面类型,即属于LSB、MSB、CSB、TSB中的哪种页面;S3:根据页面类型,结合存储元存储数据所属的电压状态,对数据进行重新编码,修改待编程字线的目标电压状态;S4:执行第二步编程。本申请能够降低有效页的出错,提高闪存数据的可靠性,提升编程效率,降低编程能耗,更加完善了两步编程技术。

    一种基于P2P网络的协同块预取方法

    公开(公告)号:CN116112562A

    公开(公告)日:2023-05-12

    申请号:CN202310116475.6

    申请日:2023-02-15

    Applicant: 厦门大学

    Abstract: 本公开提供了一种基于P2P网络的协同块预取方法,将P2P网络中的节点分为根节点和代理节点,根节点负责从远程仓库中拉取数据块,代理节点只能从根节点拉取数据块,同时根节点主动预测代理节点需要的数据块并将其推送给代理节点,从而实现根节点和代理节点的协同块预取。本公开减少对代理节点上虚拟化实例的冷启动延迟,通过虚拟化实例数据块协同预取的方式加速虚拟化实例的启动和敏捷部署,快速响应用户的延迟需求,减少虚拟化实例大规模部署带来的开销。

    纠删码数据中心机架协同更新方法

    公开(公告)号:CN113157715A

    公开(公告)日:2021-07-23

    申请号:CN202110517789.8

    申请日:2021-05-12

    Applicant: 厦门大学

    Abstract: 纠删码数据中心机架协同更新方法,涉及集群存储系统。包括以下步骤:1)数据编码和分发存储阶段:选择满足系统容错能力和编码效率的纠删码,将原始数据划分为固定大小的数据块,对数据块进行编码生成对应校验块,将生成的数据块和校验块按照约束条件分发到不同的节点中进行存储;2)增量收集阶段:根据条带的更新情况以及校验块的布局,选择适合的机架作为收集机架,并将数据增量发送给收集机架;3)选择校验更新阶段:系统根据收集机架内数据增量的数量和校验机架内校验块的数量选择基于数据增量的更新或基于校验增量的更新。在保证系统可靠性的同时,最小化跨机架更新流量,从而减少对跨机架带宽的占用,更快地完成更新过程。

    针对集群存储系统单点失效修复的跨集群流量优化方法

    公开(公告)号:CN111614720A

    公开(公告)日:2020-09-01

    申请号:CN202010286282.1

    申请日:2020-04-13

    Applicant: 厦门大学

    Abstract: 针对集群存储系统单点失效修复的跨集群流量优化方法,涉及集群存储系统。1:将原始数据划分为固定大小的数据块,对数据块编码生成对应校验块,再按照约束条件分发到不同节点中存储;2:针对每个条带找到最小化该条带跨集群修复流量的修复方案;3:初始化未修复条带集合,进行若干轮修复,每轮从未修复条带集合中随机选取多个条带构成当前轮修复条带集合,根据步骤2获得单条带修复方案组合得到初始的多条带修复组合方案,利用贪心算法调度多条带的修复,通过替代步骤和交换步骤得每轮的多条带修复组合方案;4:完成若干轮修复,每轮根据修复方案和编码规则进行对应失效条带恢复。最小化并平衡跨集群修复流量,适用于任何纠删码,适用范围广。

    一种细粒度自适应的数据频率测量方法、查询方法及系统

    公开(公告)号:CN117827989A

    公开(公告)日:2024-04-05

    申请号:CN202410054154.2

    申请日:2024-01-15

    Applicant: 厦门大学

    Abstract: 本发明公开了一种细粒度自适应的数据频率测量方法、查询方法及系统,涉及数据处理技术领域,数据频率测量方法包括:初始化步骤,将热部分、冷部分和温部分的计数器均置为0;热部分处理步骤,基于哈希表捕获热数据;冷部分处理步骤,接收热部分处理步骤输出的待存储数据,使用自适应缩放策略来确定冷数据的频率区间;温部分处理步骤,使用sketch算法记录温数据。本发明利用自适应缩放策略动态适应数据流,实现有效分离冷数据和非冷数据,提高数据频率测量准确度。

    一种高效可扩展的并发学习索引系统

    公开(公告)号:CN117493349A

    公开(公告)日:2024-02-02

    申请号:CN202311535225.2

    申请日:2023-11-17

    Applicant: 厦门大学

    Abstract: 本发明公开了一种高效可扩展的并发学习索引系统,包括:学习索引层,利用键值对数据构建并训练学习索引模型,利用新写入的键值对数据周期性更新学习索引模型;第二阶段存储层,存储训练过学习索引模型的键值对数据,以及缓存新写入的键值对数据;树形索引层,根据新写入的键值对数据生成并更新索引节点,周期性返回索引节点到学习索引层以更新学习索引模型。本发明的核心是结合学习索引和树形索引的优势,提高索引部分的快速查询,以及数据的快速写入,实现高并发高性能的并发性学习索引。

    一种基于日志结构合并树的数据重删及管理系统

    公开(公告)号:CN117406923A

    公开(公告)日:2024-01-16

    申请号:CN202311332376.8

    申请日:2023-10-16

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于日志结构合并树的数据重删及管理系统,所述系统有两种管理数据的结构,分别为:日志结构合并树LSMT结构,用于保存所述系统的初始数据、进行重删操作以及处理用户的操作请求;值文件表vFT结构,用于保存被日志结构合并树LSMT结构删除但仍被重删数据引用的未重删数据。日志结构合并树LSMT进行两次重删,一次重删为将内存上的数据持久化到磁盘上时进行;二次重删在所述系统对多个有序字符串表SSTable进行compaction压实操作的过程中进行。本发明通过两次重删以及将指纹索引存在磁盘中,减少了数据存储成本和内存开销;通过DedupVal索引方式和vFT结构,提供高效的重删后查询和修改功能;vFT的垃圾回收还可以进一步减少磁盘空间占用,同时减少DedupVal的读放大。

Patent Agency Ranking