一种基于时间片轮转机制的树状存储结构写放大优化方法

    公开(公告)号:CN105487820B

    公开(公告)日:2018-11-16

    申请号:CN201510859463.8

    申请日:2015-11-30

    Abstract: 本发明公开了一种基于时间片轮转机制的树状存储结构写放大优化方法。本方法为:1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;3)所选组件在占用时间片的过程中连续进行若干次合并操作。本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致系统资源空闲,可以将LSM‑Tree的整体写吞吐量提升40%以上。

    一种磁盘阵列日志数据旋转分布和同步方法

    公开(公告)号:CN105677255B

    公开(公告)日:2018-10-30

    申请号:CN201610011762.0

    申请日:2016-01-08

    Abstract: 本发明涉及一种磁盘阵列日志数据旋转分布和同步方法,其步骤包括:1)将磁盘分为若干主磁盘以及对应的若干镜像磁盘,仅将某一个镜像磁盘作为值日日志磁盘,其处于活动状态,其他镜像磁盘处于待机状态;2)将写请求的数据同时写到主磁盘与值日日志磁盘,当值日日志磁盘的剩余可用空间小于预定义的阈值时,将下一个镜像磁盘作为值日日志磁盘,该下一个镜像磁盘从待机状态切换到活动状态。进一步可对上一次值日日志磁盘中与其对应主磁盘中不一致的数据进行同步操作,并将旧的日志空间回收,形成无限循环的逻辑日志空间资源池。本发明以牺牲一小部分能耗为代价,利用分散式延迟同步方法,能够有效提高系统的整体性能。

    一种基于空间位图模型的辅助索引方法及系统

    公开(公告)号:CN104572828B

    公开(公告)日:2018-01-19

    申请号:CN201410743826.7

    申请日:2014-12-08

    Abstract: 本发明涉及一种基于空间位图模型的辅助索引方法及系统,包括以下步骤:获取日志文件、文件编号及其中的关键字;选择任一关键字作为当前关键字;对当前关键字做检测;在重新申请的索引空间中插入当前的文件编号;判断当前关键字的索引空间中实际有效文件范围是否小于索引空间的预定临界值;保存有效文件范围内的所有索引信息;利用顺序后移指针记录插入位置及偏移量的信息;将临时有效文件范围指针与顺序后移指针整合成新的索引空间的信息;判断整合后的索引空间的信息里是否出现了三个关于偏移量的单增区间;结束处理。本发明能够节省内存空间,在置位率较低或者插入位置较靠近最大更新位置时效率较高,并且能够进行空间动态调整。

    基于Avro的通用数据序列化及反序列化方法

    公开(公告)号:CN107229670A

    公开(公告)日:2017-10-03

    申请号:CN201710229253.X

    申请日:2017-04-10

    Abstract: 本发明公开了基于Avro的通用数据序列化及反序列化方法。该方法使用统一的数据格式,从而保证不同表的数据均可用这种方式进行存储,降低不同表的数据与系统之间的耦合度;支持数据的打包存储,可以提供数据的批量传输,大大的提高了传输效率,此外,本发明使用Avro技术对数据进行校验,避免生成错误数据。

    一种支持高效海量数据分析和检索的数据装置及数据存储方法

    公开(公告)号:CN106909623A

    公开(公告)日:2017-06-30

    申请号:CN201710043645.7

    申请日:2017-01-19

    Abstract: 本发明公开了一种支持高效海量数据分析和检索的数据装置及数据存储方法。本装置包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;全文索引组件用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。

    一种基于Spark平台的微博数据预处理方法

    公开(公告)号:CN106372105A

    公开(公告)日:2017-02-01

    申请号:CN201610694772.9

    申请日:2016-08-19

    CPC classification number: G06F16/334 G06F16/313

    Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。

    基于关键词匹配进行中文网页预分类的方法

    公开(公告)号:CN106339459A

    公开(公告)日:2017-01-18

    申请号:CN201610741134.8

    申请日:2016-08-26

    Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。

    大规模社交网络社区的检测方法及装置

    公开(公告)号:CN103942308A

    公开(公告)日:2014-07-23

    申请号:CN201410158112.X

    申请日:2014-04-18

    CPC classification number: G06F17/30964

    Abstract: 本发明涉及一种大规模社交网络社区的检测方法及装置。方法包括:将输入的大规模社交网络建模成图G=(V,E);通过并行排序算法将图G上的所有节点依节点度的大小关系作降序排列,并计算图G上所有节点的有效度之和DSum;以DSum/P为等分基准参考值,依负载均衡法将图G等分为P个子图;将P个子图通过MapReduce并行计算模型遍历寻找图G上的三角形,基于三角形拓扑结构对图G进行并行化多层粗化,获得最简粗化归约图G’;采用基于遗传学的社区发现算法,对最简粗化归约图G’做初始社区发现,生成社区发现结果;将社区发现结果逐层反粗化还原到图G并伴随作微调优处理,获得图G的社区结构。本发明能够精准而高效地实现大规模社交网络的社区发现和数据分析。

    一种用于大数据处理的计算系统及计算方法

    公开(公告)号:CN103488775A

    公开(公告)日:2014-01-01

    申请号:CN201310455174.2

    申请日:2013-09-29

    CPC classification number: G06F17/30194

    Abstract: 本发明涉及一种用于大数据处理的计算系统及方法,所述系统从下至上依次包括最底层模块、中间层模块和最高层模块,且中间层模块又包括消息传输模块和计算模型模块;最底层模块采用Hadoop分布式文件系统,用于存储数据;消息传输模块用于实现在不同计算节点运行的计算模型模块之间传递消息;在不同计算节点运行的计算模型模块根据所述消息传输模块传递的消息实现协同工作,并各自构建特定类型的计算模型来处理数据;最高层模块用于为计算模型提供编程接口,并以串行的方式组合不同计算模型表达的计算,同时设置不同计算模型之间基于内存流水线方式共享数据。本发明允许在一个系统内采用多种计算模型编写应用程序,能解决更复杂的问题。

Patent Agency Ranking