支持多数据库引擎的数据生命周期管理的实现方法

    公开(公告)号:CN109815219B

    公开(公告)日:2021-11-23

    申请号:CN201910119266.0

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

    支持HIVE自动分区的加载系统及其实现方法

    公开(公告)号:CN109902126A

    公开(公告)日:2019-06-18

    申请号:CN201910119268.X

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。

    支持HIVE自动分区的加载系统及其实现方法

    公开(公告)号:CN109902126B

    公开(公告)日:2021-12-07

    申请号:CN201910119268.X

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。

    支持多数据库引擎的数据生命周期管理的实现方法

    公开(公告)号:CN109815219A

    公开(公告)日:2019-05-28

    申请号:CN201910119266.0

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

    一种基于Storm的流数据正则匹配方法

    公开(公告)号:CN109871502B

    公开(公告)日:2020-10-30

    申请号:CN201910047920.1

    申请日:2019-01-18

    Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。

    一种基于Storm的流数据正则匹配方法

    公开(公告)号:CN109871502A

    公开(公告)日:2019-06-11

    申请号:CN201910047920.1

    申请日:2019-01-18

    Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。

    一种基于HBase的海量文件分区索引方法

    公开(公告)号:CN109726177A

    公开(公告)日:2019-05-07

    申请号:CN201811635130.7

    申请日:2018-12-29

    Abstract: 本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。

    一种基于SPDK的对象存储优化方法

    公开(公告)号:CN112347044B

    公开(公告)日:2024-04-12

    申请号:CN202011247634.9

    申请日:2020-11-10

    Inventor: 孟宪文

    Abstract: 本发明是一种基于SPDK的对象存储优化方法,属于数据存储技术领域。本发明方法包括:配置对象存储系统至少包含3台服务器,每台服务器至少配有1块SSD盘及多块HDD盘,并在对象存储系统安装好SPDK(存储性能开发工具包)驱动库;对象存储系统启动并初始化,自动配置好索引数据的SSD盘和对象数据的HDD盘;上层业务通过对象存储系统的类S3接口写入或读取对象数据;在写入时,对象的索引信息通过SPDK的文件写入接口操作磁盘直接持久化到SSD盘,对象的content通过Linux文件系统接口直接持久化到HDD盘。采用本发明方法提高了对象存储系统的响应速率,提高了对象存储的整体性能,实现了成本和性能的权衡。

Patent Agency Ranking