-
公开(公告)号:CN119996340A
公开(公告)日:2025-05-13
申请号:CN202510123643.3
申请日:2025-01-26
Applicant: 中国地质大学(北京)
Abstract: 本发明提供一种自动缩放的流资源调度方法及装置,涉及流应用数据处理技术领域。该方法包括:基于预设调度策略,运行流应用程序;在流应用程序运行过程中,使用数据检测器进行信息收集,获得流应用运行数据;基于预设的计算节点阈值,根据流应用运行数据进行重调度校验,获得校验结果;当校验结果为需要重调度时,以总割边权重最小化以及子图内部总权重均衡化为目标,对流应用程序图进行子图划分,获得流应用程序子图;基于过载阈值以及欠载阈值,对流应用程序子图进行调度资源缩放,获得优化程序子图;根据优化程序子图进行资源调度,获得优化资源调度方案。本发明是一种智能自动缩放的高效率的流应用资源调度方法。
-
公开(公告)号:CN116302576B
公开(公告)日:2023-08-01
申请号:CN202310594752.4
申请日:2023-05-25
Applicant: 中国地质大学(北京)
Abstract: 本发明公开了一种弹性伸缩的流应用算子并行化方法及系统,应用于大数据技术领域,包括:S101:将流应用数据输入M/M/K数学模型中,获取系统信息,并将系统信息存储于数据库中,系统信息包括算子集群中的计算节点、任务的CPU信息、任务的I/O信息和任务的内存资源消耗信息,以及拓扑结构中任务之间的数据传输率以及分布式流计算系统的运行状态信息;S102:根据系统信息,优化拓扑结构中每个操作的实例数量;S103:根据系统信息以及实例数量,选择目标节点进行部署或回收算子的实例;S104:通知任务,且重新划分备份的状态。本方案能够解决当流应用程序占用固定的计算资源时,流应用程序中算子之间的并行程度比无法调整,最小化系统响应时间长的问题。
-
公开(公告)号:CN114900525B
公开(公告)日:2022-12-27
申请号:CN202210549459.1
申请日:2022-05-20
Applicant: 中国地质大学(北京)
IPC: H04L67/1008
Abstract: 本发明提供一种偏斜数据流的双层协作负载均衡方法及系统,方法包括:获取处理所需的数据;根据数据为节点提交任务;节点执行上游不断提交的任务,根据任务的类型对提交的任务分不同处理方法进行处理;其中,不同处理方法包括:负载迁移步骤:对负载产生偏斜的集群动态分配资源,直到负载恢复到合理范围内;数据分发步骤:根据负载范围的不同对负载进行分组,存放各阶段产生的关键任务和各节点间由于负载差异需要调节的资源;时钟监控步骤:定期对集群负载进行一次判断,确定是否需要对集群负载进行均衡处理,确保在处理任务时不会出现不均匀的负载。本发明使负载平衡度大幅度降低,在恢复系统负载均衡的同时改善系统性能。
-
公开(公告)号:CN118535333B
公开(公告)日:2025-05-23
申请号:CN202410659254.8
申请日:2024-05-27
Applicant: 中国地质大学(北京)
Abstract: 本发明涉及分布式流计算技术领域,特别涉及一种面向波动数据流下的算子弹性缩放方法及系统。方法包括:读取用户的配置以及监控模块的数据;获得当前环境中的运算实例的数量,基于当前监控数据和运算实例的数量,结合延迟约束策略以及弹性缩放策略对算子的并行度进行调整;根据调整后的算子并行度,通过调度管理器对任务在节点间进行重新定位,并基于自适应调度策略进行任务资源的分配。本发明实现了As‑Stream的数据监测模块以及性能优化模块,并集成到分布式流计算平台Apache Storm中,从延迟、吞吐量、资源利用率和系统负载的角度对系统指标进行了全面的评估。实验结果表明,As‑Stream在不同的数据流速率下,与弹性缩放方法Autoscale+相比,As‑Stream在系统性能行具有明显的提升。
-
公开(公告)号:CN118590456A
公开(公告)日:2024-09-03
申请号:CN202410632807.0
申请日:2024-05-21
Applicant: 中国地质大学(北京)
Abstract: 本发明提供一种数据流模式感知的流应用节点调度方法,涉及分布式流计算技术领域。所述一种数据流模式感知的流应用节点调度方法由指标监控节点、预测节点、初始调度节点以及自适应度节点实现;指标监控节点收集拓扑的指标数据;根据拓扑的指标数据对LSTM神经网络模型进行训练,获得系统拓扑的总延迟和算子负载;将数据处理任务上传到分布式流计算系统,采用启发式装箱算法,进行初始调度,确定拓扑算子放置方案;采用贪心算法以及马尔可夫迭代过程,对深度强化学习模型进行训练,生成新的调度方案。采用本发明,提高分布式流计算系统的吞吐量,降低延迟以及提高负载的稳定性。
-
公开(公告)号:CN118535333A
公开(公告)日:2024-08-23
申请号:CN202410659254.8
申请日:2024-05-27
Applicant: 中国地质大学(北京)
Abstract: 本发明涉及分布式流计算技术领域,特别涉及一种面向波动数据流下的算子弹性缩放方法及系统。方法包括:读取用户的配置以及监控模块的数据;获得当前环境中的运算实例的数量,基于当前监控数据和运算实例的数量,结合延迟约束策略以及弹性缩放策略对算子的并行度进行调整;根据调整后的算子并行度,通过调度管理器对任务在节点间进行重新定位,并基于自适应调度策略进行任务资源的分配。本发明实现了As‑Stream的数据监测模块以及性能优化模块,并集成到分布式流计算平台Apache Storm中,从延迟、吞吐量、资源利用率和系统负载的角度对系统指标进行了全面的评估。实验结果表明,As‑Stream在不同的数据流速率下,与弹性缩放方法Autoscale+相比,As‑Stream在系统性能行具有明显的提升。
-
公开(公告)号:CN116302578B
公开(公告)日:2023-08-08
申请号:CN202310595972.9
申请日:2023-05-25
Applicant: 中国地质大学(北京)
Abstract: 本发明提供一种QoS约束的流应用延迟确保方法及系统,涉及分流式计算技术领域,包括:通过将拓扑建模为排队网络,构建延迟约束模型;通过延迟约束模型对系统延迟进行评估,为系统中具有优先级的组件分配执行器,在线调整拓扑任务中组件的并行度,对不同QoS约束情况下的处理延迟进行优化;构建通信开销模型;基于贪心算法,对调整并行度后的组件进行任务调度,获得最小化通信开销的任务调度。实现了Lg‑Stream的数据监测模块以及性能优化模块,并集成到典型的分布式流计算系统Apache Storm中,从系统延迟、吞吐量、资源利用率和资源使用量的角度对系统指标进行全面评估。与现有的Apache Storm框架相比,提出的Lg‑Stream在系统性能上具有明显的提升。
-
公开(公告)号:CN116346827A
公开(公告)日:2023-06-27
申请号:CN202310625541.2
申请日:2023-05-30
Applicant: 中国地质大学(北京)
IPC: H04L67/1001 , H04L43/0852
Abstract: 本发明涉及数据流分组技术领域,特别是指一种面向倾斜数据流的实时分组方法及系统。方法包括:监控器周期性获取系统的运行信息;当上游实例输出数据流时,grouper获取数据流中键值的频率;根据数据流中键值的频率,grouper对数据流中的键值进行分类,键值的分类结果包括高频键和低频键;grouper根据数据流中的键值的分类结果,确定候选实例集;grouper根据候选实例分配权重表,在候选实例集中确定出目标实例,将数据流中的元组分配给目标实例。采用本发明,可以将高频键分发给所有下游实例,通过平均处理延迟和网络延迟计算实例权重,经过多轮反馈调整后,使实例间的负载处于相对平衡的水平。
-
公开(公告)号:CN116302578A
公开(公告)日:2023-06-23
申请号:CN202310595972.9
申请日:2023-05-25
Applicant: 中国地质大学(北京)
Abstract: 本发明提供一种QoS约束的流应用延迟确保方法及系统,涉及分流式计算技术领域,包括:通过将拓扑建模为排队网络,构建延迟约束模型;通过延迟约束模型对系统延迟进行评估,为系统中具有优先级的组件分配执行器,在线调整拓扑任务中组件的并行度,对不同QoS约束情况下的处理延迟进行优化;构建通信开销模型;基于贪心算法,对调整并行度后的组件进行任务调度,获得最小化通信开销的任务调度。实现了Lg‑Stream的数据监测模块以及性能优化模块,并集成到典型的分布式流计算系统Apache Storm中,从系统延迟、吞吐量、资源利用率和资源使用量的角度对系统指标进行全面评估。与现有的Apache Storm框架相比,提出的Lg‑Stream在系统性能上具有明显的提升。
-
公开(公告)号:CN116302576A
公开(公告)日:2023-06-23
申请号:CN202310594752.4
申请日:2023-05-25
Applicant: 中国地质大学(北京)
Abstract: 本发明公开了一种弹性伸缩的流应用算子并行化方法及系统,应用于大数据技术领域,包括:S101:将流应用数据输入M/M/K数学模型中,获取系统信息,并将系统信息存储于数据库中,系统信息包括算子集群中的计算节点、任务的CPU信息、任务的I/O信息和任务的内存资源消耗信息,以及拓扑结构中任务之间的数据传输率以及分布式流计算系统的运行状态信息;S102:根据系统信息,优化拓扑结构中每个操作的实例数量;S103:根据系统信息以及实例数量,选择目标节点进行部署或回收算子的实例;S104:通知任务,且重新划分备份的状态。本方案能够解决当流应用程序占用固定的计算资源时,流应用程序中算子之间的并行程度比无法调整,最小化系统响应时间长的问题。
-
-
-
-
-
-
-
-
-