一种基于HBase的构建和检索增量索引的方法

    公开(公告)号:CN103390038B

    公开(公告)日:2016-03-30

    申请号:CN201310298976.7

    申请日:2013-07-16

    Abstract: 本发明公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。

    一种基于Hadoop的海量可归类小文件关联存储方法

    公开(公告)号:CN102332029A

    公开(公告)日:2012-01-25

    申请号:CN201110312694.9

    申请日:2011-10-15

    Abstract: 本发明公开了一种基于Hadoop的海量可归类小文件关联存储方法,主要解决可归类小文件的存取效率问题。本发明包括NameNode端全局索引管理技术和文件聚合技术。针对属于某一类别的独立的小文件进行文件聚合和全局索引管理,大幅度提高了内存利用率,提高单位内存支持的最大文件数量。本发明包括:(1)将属于某一类别的小文件聚合成一个文件,称为逻辑单元;(2)对每一个小文件建立存放在NameNode内存中的全局索引。文件聚合技术用于提高可归类小文件的存储效率,NameNode端全局索引管理技术用于管理聚合后的小文件。通过以上技术,提高了海量可归类小文件的存储效率。本发明适用于通用场景下可归类小文件的存储和管理。

    一种基于Hadoop的海量非独立小文件关联存储方法

    公开(公告)号:CN102332027A

    公开(公告)日:2012-01-25

    申请号:CN201110312671.8

    申请日:2011-10-15

    Abstract: 本发明公开了一种基于Hadoop的海量非独立小文件关联存储方法,主要解决海量的非独立小文件存取效率和读取效率较低的问题。针对某个大文件被分割成的许多小文件,即非独立小文件,本发明的特征在于:(1)将属于某个大文件的所有小文件归并为一个文件,称为merged file;(2)对每个merged file建立一个局部索引,并在上传时将局部索引文件与文件实体一同存放在Hadoop系统的DataNode上;(3)在读取非独立小文件时,采用元数据缓存、局部索引文件预取和关联文件预取提高文件的读取效率。通过以上方法,提高了现有Hadoop系统存储小文件的存储效率和读取效率。本发明适用于通用场景下海量的非独立小文件的存储和管理。

    一种基于HBase的构建和检索增量索引的方法

    公开(公告)号:CN103390038A

    公开(公告)日:2013-11-13

    申请号:CN201310298976.7

    申请日:2013-07-16

    Abstract: 本发明公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。

    一种基于Hadoop的海量可归类小文件关联存储方法

    公开(公告)号:CN102332029B

    公开(公告)日:2013-04-17

    申请号:CN201110312694.9

    申请日:2011-10-15

    Abstract: 本发明公开了一种基于Hadoop的海量可归类小文件关联存储方法,主要解决可归类小文件的存取效率问题。本发明包括NameNode端全局索引管理技术和文件聚合技术。针对属于某一类别的独立的小文件进行文件聚合和全局索引管理,大幅度提高了内存利用率,提高单位内存支持的最大文件数量。本发明包括:(1)将属于某一类别的小文件聚合成一个文件,称为逻辑单元;(2)对每一个小文件建立存放在NameNode内存中的全局索引。文件聚合技术用于提高可归类小文件的存储效率,NameNode端全局索引管理技术用于管理聚合后的小文件。通过以上技术,提高了海量可归类小文件的存储效率。本发明适用于通用场景下可归类小文件的存储和管理。

Patent Agency Ranking