非日志模式的数据库集群副本构建方法及装置

    公开(公告)号:CN109918229A

    公开(公告)日:2019-06-21

    申请号:CN201910119274.5

    申请日:2019-02-18

    Abstract: 本发明公开了一种非日志模式的数据库集群副本构建方法及装置,方法包括:加载工具直连第一个副本,进行数据实时入库加载,并以事务为单位构建同步记录;复制流程调度器加载元数据,检查节点状态,构造多个副本的拓扑关系,启动各个节点上的复制执行器,将构建的拓扑信息携带在复制处理消息中通过消息总线发送给复制执行器;复制执行器从消息总线获取复制处理消息,解析拓扑信息,查找到数据源,通过自身副本的全局唯一GID标识以及数据源的同步记录跟踪表,检查增量数据,如果没有,则循环等待,否则执行下步;复制执行器计算增量数据的同步范围信息,读取给定范围的数据,加载至本身节点上的副本,并构造本次数据复制的同步记录,执行步骤3。

    基于流数据处理的大数据平台监控系统

    公开(公告)号:CN109885453A

    公开(公告)日:2019-06-14

    申请号:CN201910119278.3

    申请日:2019-02-18

    Abstract: 本发明公开了一种基于流数据处理的大数据平台监控系统,所述系统包括:数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。

    支持多数据库引擎的数据生命周期管理的实现方法

    公开(公告)号:CN109815219A

    公开(公告)日:2019-05-28

    申请号:CN201910119266.0

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

    一种数据持久化方法和装置

    公开(公告)号:CN108519987A

    公开(公告)日:2018-09-11

    申请号:CN201810158889.4

    申请日:2018-02-24

    Abstract: 本发明公开了一种数据持久化方法和装置。该方法包括:从Kafka中的预设Topic内,获取预先被转换为统一数据类型的数据;选择目标存储引擎;通过Flume将所述Topic内的数据加载到所述目标存储引擎,以便对所述数据执行持久化操作;其中,在所述目标存储引擎执行持久化操作之前,将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法,在本发明中,使用同一数据类型,通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载,通过一次反序列化(转换为原数据类型),实现多存储引擎的高效数据持久化。

    一种数据共享方法和装置
    37.
    发明公开

    公开(公告)号:CN108512902A

    公开(公告)日:2018-09-07

    申请号:CN201810159206.7

    申请日:2018-02-24

    Abstract: 本发明公开了一种数据共享方法和装置。该方法包括:获取数据源对应的第一元数据和数据目的对应的第二元数据;根据所述第一元数据和所述第二元数据,配置整形流程文件;根据所述第一元数据、所述第二元数据、所述整形流程文件以及预先配置的数据传输路径,生成共享场景配置文件;根据所述共享场景配置文件传输数据,实现所述数据源和所述数据目之间的数据共享。本发明通过简单配置便可构建数据共享的快速传输通道,在传输通道中,可根据元数据定义及整形流程进行自动整形,数据规范化,可以对多源数据灵活整形,使数据共享过程规范化,并且有效提高了数据共享方案的通用性和传输效率。

    一种面向SparkSql的HDFS小文件实时合并实现方法

    公开(公告)号:CN108256115A

    公开(公告)日:2018-07-06

    申请号:CN201810142899.9

    申请日:2018-02-11

    Abstract: 本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

Patent Agency Ranking