支持多数据库引擎的数据生命周期管理的实现方法

    公开(公告)号:CN109815219A

    公开(公告)日:2019-05-28

    申请号:CN201910119266.0

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

    一种操作系统远程批量部署方法和系统

    公开(公告)号:CN108733384A

    公开(公告)日:2018-11-02

    申请号:CN201810293818.5

    申请日:2018-03-30

    CPC classification number: G06F8/63 G06F9/4416

    Abstract: 本发明提供了一种操作系统远程批量部署方法和系统,包括:通过服务端服务器配置操作系统部署任务,并将操作系统部署任务下发给多个代理端服务器;将任一代理端服务器设为第一缓存服务器,并为第一缓存服务器配置动态主机配置协议;由第一缓存服务器基于操作系统部署任务为剩余代理端服务器部署操作系统;将任一剩余代理端服务器设为第二缓存服务器同时配置动态主机配置协议,由第二缓存服务器为第一代理端服务器部署操作系统。该方法和系统能够大规模、跨地域的灵活部署操作系统,克服了现有技术在每个机房内都部署一套安装软件然后通过远程调用方式启动,造成了重复部署浪费和多套软件配置、维护困难的缺点,节省了部署和管理成本。

    一种基于Spark计算框架的数据获取方法和装置

    公开(公告)号:CN108536808A

    公开(公告)日:2018-09-14

    申请号:CN201810296682.3

    申请日:2018-04-04

    Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括:在接收到表对象访问请求之后,获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息;根据计算资源信息和数据分布信息,生成多个Partition;其中,每个Partition对应数据表中的部分数据;通过生成的多个Partition,从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性,通过多个Partition,直接从MPP的存储节点快速获取数据集。进一步地,在计算资源充足的情况下,可以对存储节点的数据表进行进一步的拆分,以达到提高并行度,提升数据导入性能的目的。可以根据MPP集群的数据分布情况,优先从本地存储中获取数据,减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

    一种数据持久化方法和装置

    公开(公告)号:CN108519987A

    公开(公告)日:2018-09-11

    申请号:CN201810158889.4

    申请日:2018-02-24

    Abstract: 本发明公开了一种数据持久化方法和装置。该方法包括:从Kafka中的预设Topic内,获取预先被转换为统一数据类型的数据;选择目标存储引擎;通过Flume将所述Topic内的数据加载到所述目标存储引擎,以便对所述数据执行持久化操作;其中,在所述目标存储引擎执行持久化操作之前,将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法,在本发明中,使用同一数据类型,通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载,通过一次反序列化(转换为原数据类型),实现多存储引擎的高效数据持久化。

    一种面向SparkSql的HDFS小文件实时合并实现方法

    公开(公告)号:CN108256115A

    公开(公告)日:2018-07-06

    申请号:CN201810142899.9

    申请日:2018-02-11

    Abstract: 本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    一种识别网络图中关键节点的分布式方法

    公开(公告)号:CN106649893A

    公开(公告)日:2017-05-10

    申请号:CN201510706040.2

    申请日:2015-10-27

    Abstract: 本发明涉及一种识别网络图中关键节点的分布式方法,包括:采用点切分方式将网络图切分到n台机器上;选择工作节点,分别对所述工作节点的消息和所述工作节点的后继节点的消息进行初始化;更新所述工作节点的后继节点的消息;确定所述工作节点的后继节点的单点依赖;根据网络图中节点的单点依赖确定节点的桥接中心度,本发明采用Graphlab框架来实现,不仅支持基于消息的编程模型,而且支持共享内存风格的“收集-更新-扩散”模型,能够获得更快的运行速度,并且随着集群规模的扩大,可以支持在更大规模的图中计算关键节点。

Patent Agency Ranking