-
公开(公告)号:CN109902065A
公开(公告)日:2019-06-18
申请号:CN201910120843.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/14 , G06F16/182
Abstract: 本发明公开了一种访问分布式集群外部数据方法及装置,所述方法包括:将文件服务进程设置在数据库集群系统以外的主机上,并设置文件服务进程的参数,启动所述文件服务进程;在数据库集群系统的数据节点需要访问外部数据时,启动ExternalTableScan算子,连接所述文件服务进程,基于预先创建的外部表进行外部数据访问。
-
公开(公告)号:CN109885453A
公开(公告)日:2019-06-14
申请号:CN201910119278.3
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于流数据处理的大数据平台监控系统,所述系统包括:数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。
-
公开(公告)号:CN109815295A
公开(公告)日:2019-05-28
申请号:CN201910119281.5
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种分布式集群数据导入方法及装置,所述方法包括:数据节点接收Master节点下发的数据加载命令,启动ForeignTableScan算子加载文件加载进程,通过ForeignTableScan算子基于预先设置的外部表,把要请求的数据及外部文件相关信息发送给文件加载进程,其中,文件加载进程设置第三方ETL服务器中;文件加载进程根据数据节点发来的信息顺序读取数据文件,并将数据发送给数据节点;数据节点的ForeignTableScan算子收取数据后,将数据存储到本地。
-
公开(公告)号:CN109815219A
公开(公告)日:2019-05-28
申请号:CN201910119266.0
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。
-
公开(公告)号:CN108536808A
公开(公告)日:2018-09-14
申请号:CN201810296682.3
申请日:2018-04-04
Applicant: 国家计算机网络与信息安全管理中心 , 天津神舟通用数据技术有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括:在接收到表对象访问请求之后,获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息;根据计算资源信息和数据分布信息,生成多个Partition;其中,每个Partition对应数据表中的部分数据;通过生成的多个Partition,从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性,通过多个Partition,直接从MPP的存储节点快速获取数据集。进一步地,在计算资源充足的情况下,可以对存储节点的数据表进行进一步的拆分,以达到提高并行度,提升数据导入性能的目的。可以根据MPP集群的数据分布情况,优先从本地存储中获取数据,减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。
-
公开(公告)号:CN108519987A
公开(公告)日:2018-09-11
申请号:CN201810158889.4
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种数据持久化方法和装置。该方法包括:从Kafka中的预设Topic内,获取预先被转换为统一数据类型的数据;选择目标存储引擎;通过Flume将所述Topic内的数据加载到所述目标存储引擎,以便对所述数据执行持久化操作;其中,在所述目标存储引擎执行持久化操作之前,将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法,在本发明中,使用同一数据类型,通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载,通过一次反序列化(转换为原数据类型),实现多存储引擎的高效数据持久化。
-
公开(公告)号:CN108512902A
公开(公告)日:2018-09-07
申请号:CN201810159206.7
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L29/08
Abstract: 本发明公开了一种数据共享方法和装置。该方法包括:获取数据源对应的第一元数据和数据目的对应的第二元数据;根据所述第一元数据和所述第二元数据,配置整形流程文件;根据所述第一元数据、所述第二元数据、所述整形流程文件以及预先配置的数据传输路径,生成共享场景配置文件;根据所述共享场景配置文件传输数据,实现所述数据源和所述数据目之间的数据共享。本发明通过简单配置便可构建数据共享的快速传输通道,在传输通道中,可根据元数据定义及整形流程进行自动整形,数据规范化,可以对多源数据灵活整形,使数据共享过程规范化,并且有效提高了数据共享方案的通用性和传输效率。
-
公开(公告)号:CN108256115A
公开(公告)日:2018-07-06
申请号:CN201810142899.9
申请日:2018-02-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
-
-
-
-
-
-
-