-
公开(公告)号:CN109815295A
公开(公告)日:2019-05-28
申请号:CN201910119281.5
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种分布式集群数据导入方法及装置,所述方法包括:数据节点接收Master节点下发的数据加载命令,启动ForeignTableScan算子加载文件加载进程,通过ForeignTableScan算子基于预先设置的外部表,把要请求的数据及外部文件相关信息发送给文件加载进程,其中,文件加载进程设置第三方ETL服务器中;文件加载进程根据数据节点发来的信息顺序读取数据文件,并将数据发送给数据节点;数据节点的ForeignTableScan算子收取数据后,将数据存储到本地。
-
公开(公告)号:CN109815219A
公开(公告)日:2019-05-28
申请号:CN201910119266.0
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。
-
公开(公告)号:CN108733384A
公开(公告)日:2018-11-02
申请号:CN201810293818.5
申请日:2018-03-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F8/61 , G06F9/4401
CPC classification number: G06F8/63 , G06F9/4416
Abstract: 本发明提供了一种操作系统远程批量部署方法和系统,包括:通过服务端服务器配置操作系统部署任务,并将操作系统部署任务下发给多个代理端服务器;将任一代理端服务器设为第一缓存服务器,并为第一缓存服务器配置动态主机配置协议;由第一缓存服务器基于操作系统部署任务为剩余代理端服务器部署操作系统;将任一剩余代理端服务器设为第二缓存服务器同时配置动态主机配置协议,由第二缓存服务器为第一代理端服务器部署操作系统。该方法和系统能够大规模、跨地域的灵活部署操作系统,克服了现有技术在每个机房内都部署一套安装软件然后通过远程调用方式启动,造成了重复部署浪费和多套软件配置、维护困难的缺点,节省了部署和管理成本。
-
公开(公告)号:CN108519987A
公开(公告)日:2018-09-11
申请号:CN201810158889.4
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种数据持久化方法和装置。该方法包括:从Kafka中的预设Topic内,获取预先被转换为统一数据类型的数据;选择目标存储引擎;通过Flume将所述Topic内的数据加载到所述目标存储引擎,以便对所述数据执行持久化操作;其中,在所述目标存储引擎执行持久化操作之前,将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法,在本发明中,使用同一数据类型,通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载,通过一次反序列化(转换为原数据类型),实现多存储引擎的高效数据持久化。
-
公开(公告)号:CN108256115A
公开(公告)日:2018-07-06
申请号:CN201810142899.9
申请日:2018-02-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
-
公开(公告)号:CN106649893A
公开(公告)日:2017-05-10
申请号:CN201510706040.2
申请日:2015-10-27
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种识别网络图中关键节点的分布式方法,包括:采用点切分方式将网络图切分到n台机器上;选择工作节点,分别对所述工作节点的消息和所述工作节点的后继节点的消息进行初始化;更新所述工作节点的后继节点的消息;确定所述工作节点的后继节点的单点依赖;根据网络图中节点的单点依赖确定节点的桥接中心度,本发明采用Graphlab框架来实现,不仅支持基于消息的编程模型,而且支持共享内存风格的“收集-更新-扩散”模型,能够获得更快的运行速度,并且随着集群规模的扩大,可以支持在更大规模的图中计算关键节点。
-
-
-
-
-