一种基于局部性优化的重复数据检测方法

    公开(公告)号:CN107391034A

    公开(公告)日:2017-11-24

    申请号:CN201710555589.5

    申请日:2017-07-07

    Inventor: 王桦 周可 张攀峰

    CPC classification number: G06F3/061 G06F3/0641 G06F3/0656

    Abstract: 本发明公开了一种基于局部性优化的重复数据检测方法,属于计算机存储技术领域,解决现有重复数据检测方法中检测效率低下的问题,以适应因存储数据规模扩大,而导致重复数据检测效率降低的现状。本发明包括布隆过滤器检测、哈希桶写缓存检测、哈希桶读缓存检测、哈希桶地址表检测步骤。本发明主要针对局部性较强的数据集类型,通过挖掘数据集中的局部性,提高数据预取的效率,降低磁盘访问开销,提升数据去重的吞吐率。对于数据集中可能的重复数据,本发明首先利用布隆过滤器对数据块的重复性进行预判,接下来根据不同的条件分别对缓存区的热区及冷区及磁盘进行三级重复数据的检测,充分利用重复数据中的局部性,提升重复数据的检测效能。

    一种分级存储系统中的海量小文件迁移方法

    公开(公告)号:CN106294526A

    公开(公告)日:2017-01-04

    申请号:CN201510362858.7

    申请日:2015-06-26

    CPC classification number: G06F17/30079

    Abstract: 本发明公开了一种分级存储系统中海量小文件迁移的方案,属于存储技术领域,解决现有迁移方案中所存在的海量小文件传输效率低问题。本发明的方法,用于具有前端Lustre文件系统和后端HDFS文件系统的分级存储架构中,包括处理文件请求步骤、文件相关性计算步骤、阈值计算步骤、合并小文件步骤、数据重删步骤和数据传输步骤。本发明的装置,包括请求处理模块、文件相关性模块、阈值计算模块、小文件合并模块、数据重删模块和数据传输模块。本发明充分发挥Lustre和HDFS文件系统自身优点,透彻分析小文件归档和读取过程中的性能瓶颈,通过定量的阈值计算选择保证任一时刻采用最优方案进行小文件传输,从而提高海量小文件在两级文件系统之间的迁移效率。

    一种云存储系统中元数据的获取方法

    公开(公告)号:CN103685453B

    公开(公告)日:2016-08-03

    申请号:CN201310413124.8

    申请日:2013-09-11

    Abstract: 本发明公开了一种云存储系统中元数据的获取方法,包括:客户端将用户的登录信息发送给认证服务器,认证服务器根据该登录信息判断该用户是否存在,如果用户存在,则认证服务器将登录信息发送给命名空间服务器,命名空间服务器根据该登录信息获取用户信息,并根据用户信息获取该命名空间服务器中该用户的目录子树,对用户目录子树进行组织,以生成新的用户目录树,并将新的用户目录树返回给客户端,客户端根据组织结果判断获取用户目录树是否成功,若成功则命名空间服务器传送用户目录树给客户端,其中传输是采用xml文件形式,本发明能够解决现有方法中存在的用户每次访问数据之前都要向元数据服务器请求元数据,从而影响用户访问数据的速度的问题。

    一种基于固态盘内部并行性的I/O调度方法及调度器

    公开(公告)号:CN103336669B

    公开(公告)日:2015-12-02

    申请号:CN201310190301.0

    申请日:2013-05-21

    Abstract: 本发明公开了一种基于固态盘内部并行性的I/O调度方法,包括:将SSD的逻辑地址空间划分为N个具有相同大小的区域,对每个区域进行顺序编号,并为每个区域分配一个用于管理区域的子队列,每个子队列中包括读请求FIFO队列、写请求FIFO队列、读请求红黑树、以及写请求红黑树,设置区域计数器i=1,判断第i个区域的读请求FIFO队列中是否有读请求,或写请求FIFO队列中是否有写请求,如果有读请求或写请求,则判断第i个区域中上一次服务的请求是否为写请求,如果是则,判断第i个区域中读请求FIFO队列和读请求红黑树中是否有读请求。本发明能够合理适度地利用固态盘内部的并行性以及避免读写请求之间的相互干扰,从而能够提高整个固态盘系统的I/O性能和使用寿命。

    一种数据块索引的检索方法

    公开(公告)号:CN102663086B

    公开(公告)日:2014-05-07

    申请号:CN201210100902.3

    申请日:2012-04-09

    Abstract: 一种数据块索引的检索方法,本发明属于计算机数据存储和备份方法,解决现有数据块索引检索方法重复数据删除系统规模受到限制、重删率降低;或者在重复数据删除系统的规模增大的情况下,检索速度较慢的问题。本发明包括指纹检索步骤和存储新索引记录步骤,指纹检索步骤包括:布隆过滤器判断、读缓存队列判断、移动复制、写缓存队列判断、反向映射集合判断、动态标识集判断以及磁盘访问子步骤;存储新索引记录步骤又包括创建索引记录、写缓存包判断、写缓存队列判断和磁盘刷新子步骤。本发明提高了大数据量环境下重复数据删除索引检索的效率,维持了较低的内存占用,保证了重删率,具有良好的可扩展能力,可以提供大规模重复数据删除索引检索服务。

    用于G.723.1语音编码器的信息嵌入和提取方法

    公开(公告)号:CN102522089A

    公开(公告)日:2012-06-27

    申请号:CN201110396225.X

    申请日:2011-12-02

    Abstract: 一种用于G.723.1语音编码器的信息嵌入方法,包括:获取语音信号,对语音信号进行G.723.1编码,以生成语音帧,获取语音帧的s个隐藏参数及其隐藏位/块,隐藏参数的嵌入容量、嵌入操作以及多进制形式,设定计数器k=1,根据第k个隐藏参数的嵌入容量获取秘密信息比特,判断第k个隐藏参数的嵌入操作是否为最低有效位替换,若所嵌入操作不是最低有效位替换,则根据多进制形式对秘密信息比特和隐藏参数进行多进制转化,根据多进制转化后的秘密信息对隐藏参数的多进制进行最低有效位替换。本发明充分地利用了帧参数中抗噪性强的比特的相邻状态,使得嵌入的修改集中在影响较小的比特位,有利于减小失真,适用于语音通信系统下的秘密信息的传送。

    一种语义驱动的云盘静态负载预测方法和系统

    公开(公告)号:CN118606666A

    公开(公告)日:2024-09-06

    申请号:CN202410748984.5

    申请日:2024-06-12

    Abstract: 本发明公开了一种语义驱动的云盘静态负载预测方法,包括:获取多个云盘的描述数据,对每个云盘的描述数据进行预处理操作,以得到该云盘预处理后的描述数据,将获取的每个云盘预处理后的描述数据输入预先训练好的云盘静态负载预测模型中,以获取该云盘的未来负载预测结果,将得到的云盘的未来负载预测结果进行逆变换处理,以得到该云盘最终的预测负载。本发明能够解决现有预测方法在处理复杂业务特征和保留其丰富语义信息时存在的局限性,以及现有预测模型无法有效利用提取到的语义信息的技术问题,以及现有模型无法适应数据特性的技术问题。

    多变缓存空间场景下基于机器学习的缓存准入方法和系统

    公开(公告)号:CN118519772A

    公开(公告)日:2024-08-20

    申请号:CN202410685449.X

    申请日:2024-05-30

    Inventor: 周可 王桦 刘科

    Abstract: 本发明公开了一种多变缓存空间场景下基于机器学习的缓存准入方法,包括:采集用户的缓存信息,并对该用户的缓存信息先后进行词向量化处理和归一化处理,以获取该用户的缓存信息对应的特征向量,将用户的缓存信息对应的特征向量输入到预先训练好的机器学习模型中,以获取该用户的缓存信息对应的重用距离标签,根据该用户的缓存信息、以及该用户的缓存信息对应的重用距离标签,判断该用户的缓存信息在其缓存生命周期内是否会被再次命中,如果是则允许该缓存信息对应的数据写入缓存,否则不允许该缓存信息对应的数据写入缓存。本发明能够解决现有基于启发式的缓存准入策略适用性差的技术问题,以及现有基于学习的缓存准入策略准确性差的技术问题。

    面向云数据分析服务场景的数据块索引结构及其构建方法

    公开(公告)号:CN118035501A

    公开(公告)日:2024-05-14

    申请号:CN202410137615.2

    申请日:2024-01-31

    Abstract: 本发明公开了一种面向云数据分析服务场景的数据块索引结构及其构建方法,首先将被索引数据的数据块中的分布情况建模成累积分布函数,进而使用分段线性函数拟合该累积分布函数,从而对数据块分布模式进行捕获,根据捕获到的模式将被索引的数据组织成分段,并对每个分段进行分区,最后,每个分段及其内的分区作为叶子节点构建B+树结构,以实现高效的查找和插入操作。本发明能够解决现有成员过滤器方法和精确索引方法过滤效果好但索引存储开销大的技术问题,以及现有小物化聚合方法索引存储开销小但过滤效果差的技术问题。

    一种基于二叉决策树的数据库范围过滤器设计方法和装置

    公开(公告)号:CN117668000A

    公开(公告)日:2024-03-08

    申请号:CN202311812966.0

    申请日:2023-12-26

    Abstract: 本发明公开了一种基于二叉决策树的数据库范围过滤器设计方法和装置,属于数据库查询技术领域,所述方法考虑到在多数应用场景下数据库中需要处理的数据集并不均匀,根据数据集自身分布特点离线构建初始二叉决策树,其每个结点是一个范围,其根结点代表整个数据集中键的范围区间;利用初始二叉决策树进行模拟在线查询并根据各个叶子结点的访问频次进行剪枝;最后进行压缩编码得到数据库范围过滤器;构建二叉决策树过程中根据数据密度以及偏斜程度生长二叉树,可以解决在数据分布不均匀的情况下假阳率较高的问题;根据访问频率对二叉树进行剪枝操作可以减少空间占用;最终得到数据库范围过滤器在数据不均匀情况下能够高效地进行数据处理。

Patent Agency Ranking