-
公开(公告)号:CN113434548B
公开(公告)日:2022-06-17
申请号:CN202110711332.0
申请日:2021-06-25
Applicant: 北京理工大学
IPC: G06F16/2455 , G06F16/2458 , G06F9/54
Abstract: 本发明公开一种基于Spark的大规模数据流分析方法及系统,方法包括,基于Spark构建分布式计算框架,通过分布式计算框架对目标代码进行分布式数据流分析,其中,分布式数据流分析,包括,过程内预处理阶段,分布式过程间数据整合阶段;系统包括,数据采集模块,数据处理模块,数据分析模块,数据存储模块,数据显示模块;本发明采取两级并行策略,多入口地进行并行计算,具有高度的可扩展性,同时考虑了分布式计算的负载均衡问题,能够充分利用分布式集群算力优势,加速静态数据流分析。
-
公开(公告)号:CN113434548A
公开(公告)日:2021-09-24
申请号:CN202110711332.0
申请日:2021-06-25
Applicant: 北京理工大学
IPC: G06F16/2455 , G06F16/2458 , G06F9/54
Abstract: 本发明公开一种基于Spark的大规模数据流分析方法及系统,方法包括,基于Spark构建分布式计算框架,通过分布式计算框架对目标代码进行分布式数据流分析,其中,分布式数据流分析,包括,过程内预处理阶段,分布式过程间数据整合阶段;系统包括,数据采集模块,数据处理模块,数据分析模块,数据存储模块,数据显示模块;本发明采取两级并行策略,多入口地进行并行计算,具有高度的可扩展性,同时考虑了分布式计算的负载均衡问题,能够充分利用分布式集群算力优势,加速静态数据流分析。
-