一种弹性伸缩的流应用算子并行化方法及系统

    公开(公告)号:CN116302576B

    公开(公告)日:2023-08-01

    申请号:CN202310594752.4

    申请日:2023-05-25

    Inventor: 孙大为 吴明辉

    Abstract: 本发明公开了一种弹性伸缩的流应用算子并行化方法及系统,应用于大数据技术领域,包括:S101:将流应用数据输入M/M/K数学模型中,获取系统信息,并将系统信息存储于数据库中,系统信息包括算子集群中的计算节点、任务的CPU信息、任务的I/O信息和任务的内存资源消耗信息,以及拓扑结构中任务之间的数据传输率以及分布式流计算系统的运行状态信息;S102:根据系统信息,优化拓扑结构中每个操作的实例数量;S103:根据系统信息以及实例数量,选择目标节点进行部署或回收算子的实例;S104:通知任务,且重新划分备份的状态。本方案能够解决当流应用程序占用固定的计算资源时,流应用程序中算子之间的并行程度比无法调整,最小化系统响应时间长的问题。

    一种偏斜数据流的双层协作负载均衡方法及存储介质

    公开(公告)号:CN114900525B

    公开(公告)日:2022-12-27

    申请号:CN202210549459.1

    申请日:2022-05-20

    Inventor: 孙大为 杨志虹

    Abstract: 本发明提供一种偏斜数据流的双层协作负载均衡方法及系统,方法包括:获取处理所需的数据;根据数据为节点提交任务;节点执行上游不断提交的任务,根据任务的类型对提交的任务分不同处理方法进行处理;其中,不同处理方法包括:负载迁移步骤:对负载产生偏斜的集群动态分配资源,直到负载恢复到合理范围内;数据分发步骤:根据负载范围的不同对负载进行分组,存放各阶段产生的关键任务和各节点间由于负载差异需要调节的资源;时钟监控步骤:定期对集群负载进行一次判断,确定是否需要对集群负载进行均衡处理,确保在处理任务时不会出现不均匀的负载。本发明使负载平衡度大幅度降低,在恢复系统负载均衡的同时改善系统性能。

    一种键值分离的键值存储引擎索引优化方法及装置

    公开(公告)号:CN114896250B

    公开(公告)日:2023-02-03

    申请号:CN202210545019.9

    申请日:2022-05-19

    Inventor: 孙大为 吴旗

    Abstract: 本发明涉及计算机存储技术领域,特别是指一种键值分离的键值存储引擎索引优化方法及装置,方法包括:当接收到写命令时,获取待写入的键值对,基于预设阈值进行条件键值分离处理,记录键值分离处理的次数;将键值分离处理的次数与预设次数阈值进行比较,得到第一参数;获取SSTable的生命周期,将生命周期与预设生命周期阈值进行比较,得到第二参数;根据第一参数以及第二参数,判断是否对SSTable构建学习索引模型;当确定对SSTable构建学习索引模型时,基于SSTable构建学习索引模型;当接收到读命令时,基于学习索引模型进行读操作。采用本发明,可以减少查询步骤产生的延迟,提高数据查询效率。

    一种多层次协作的流资源管理方法及系统

    公开(公告)号:CN115378789A

    公开(公告)日:2022-11-22

    申请号:CN202211299626.8

    申请日:2022-10-24

    Inventor: 孙大为 陈海洋

    Abstract: 本发明公开了一种多层次协作的流资源管理方法及系统,涉及分布式流计算技术领域。包括:DAG生成模块,用于根据预先设计的数据流应用程序,得到用于表示逻辑执行计划的DAG;自适应分组模块,用于根据动态调整策略,对上游运算符产生的数据流元组进行分组,并传输到下游运算符实例中进行处理;资源感知调度模块,用于将各实例调度到集群的计算节点中进行任务运行;弹性缩放模块,用于实时识别出当前处于瓶颈的运算符,并对运算符的并行度进行自适应调整。本发明设计了一种基于弹性数据流和拓扑感知的分布式流计算系统调度和资源管理框架,达到快速自适应数据输入速率的波动,使得流计算系统Apache Storm可以达到最优性能。

    一种流速和资源感知的流应用调度方法及系统

    公开(公告)号:CN114780247A

    公开(公告)日:2022-07-22

    申请号:CN202210535602.1

    申请日:2022-05-17

    Inventor: 孙大为 崔鑫垚

    Abstract: 本发明提供一种流速和资源感知的流应用调度方法及系统,方法包括:根据流应用的拓扑结构构建数据流划分模型;根据执行器间的元组传输速率构建任务分配模型;根据计算节点资源的占用情况构建负载均衡模型;根据数据流划分模型,提出基于FFD算法的流速感知方法进行调度,将执行器和计算节点分别按照元组传输速率和负载均衡指数进行排序,在不超过计算节点阈值的情况下,将高度通信的执行器聚集到同一计算节点中;根据任务分配模型与负载均衡模型,基于蚁群优化的资源感知方法进行调度,以最小化任务完成时间和优化资源分配方案为目标,将任务的资源需求与计算节点剩余资源情况加入到信息素和启发式函数中,在分配过程中使任务根据资源需求类型找到相匹配的计算节点。

    一种面向云日志细粒度单元的快速编码方法及装置

    公开(公告)号:CN118573209A

    公开(公告)日:2024-08-30

    申请号:CN202410637097.0

    申请日:2024-05-22

    Abstract: 本发明涉及数据处理技术领域,特别是指一种面向云日志细粒度单元的快速编码方法及装置。所述方法包括:使用日志解析树,对半结构化云日志数据进行二级模式解析,获得第一细粒度单元数据;基于云日志数据特征,根据滑动窗口最优阈值,对第一细粒度单元中的整型数据进行特征提取,获得局部特征区间数据;采用VLQ编码算法,对局部特征区间的元数据进行编码,获得编码后元数据;根据编码后元数据,采用特征感知快速编码算法,对第一细粒度单元数据进行局部编码,获得第二细粒度单元数据;使用GZIP压缩算法,对所述第二细粒度单元数据进行压缩处理,获得云日志压缩数据。本发明是一种基于细粒度单元的针对于云日志数据的高效且快速的编码方法。

    一种基于DQN算法的流系统资源优化调度方法及装置

    公开(公告)号:CN118567842A

    公开(公告)日:2024-08-30

    申请号:CN202410640831.9

    申请日:2024-05-22

    Inventor: 孙大为 赵卓文

    Abstract: 本发明涉及分布式流计算技术领域,特别是指一种基于DQN算法的流系统资源优化调度方法及装置。方法包括:基于流处理模型,将应用拓扑建模为有向无环图,基于有向无环图的起始点,从外部环境中接收原始数据流,将数据流传递给下游的数据处理组件进行处理和分析;建立流应用模型,包括系统的任务完成时间和资源消耗;建立资源模型,并基于资源模型设计资源约束,进而建立环境模型,把调度过程形成一个模型数据的变化;基于改进的强化学习模型DQN优化流处理系统中的资源分配和任务调度;基于梯度策略算法更新资源分配策略。采用本发明,可以优化调度策略和优化奖励函数,进一步降低系统的资源消耗。

    一种面向流连接算子中落伍者优化方法及装置

    公开(公告)号:CN118381766A

    公开(公告)日:2024-07-23

    申请号:CN202410618257.7

    申请日:2024-05-17

    Inventor: 孙大为 吴明辉

    Abstract: 本发明涉及分布式流计算领域,特别是指一种面向流连接算子中落伍者优化方法及装置。所述方法包括:获取待进行流连接的第一数据流以及第二数据流;构建Ls‑Stream数据流调度器;其中,Ls‑Stream数据流调度器包括分发器组件、连接实例组件和控制器组件;根据分发器组件、连接实例组件和控制器组件,对多组第一数据元组以及多组第二数据元组进行连接,得到数据流连接结果。本发明通过融合基于哈希与基于键的数据分区方法,构建了一个高效的两级路由策略,旨在优化连接实例的工作负载分配。此外,该策略的实施使得每个连接实例能够同时管理多个分区,从而提升了系统的整体效能。与现有的框架相比,提出的数据流调度器降低了系统响应时间和提高了系统吞吐量。

    一种面向倾斜数据流的实时分组方法及系统

    公开(公告)号:CN116346827B

    公开(公告)日:2023-08-11

    申请号:CN202310625541.2

    申请日:2023-05-30

    Inventor: 孙大为 雷思

    Abstract: 本发明涉及数据流分组技术领域,特别是指一种面向倾斜数据流的实时分组方法及系统。方法包括:监控器周期性获取系统的运行信息;当上游实例输出数据流时,grouper获取数据流中键值的频率;根据数据流中键值的频率,grouper对数据流中的键值进行分类,键值的分类结果包括高频键和低频键;grouper根据数据流中的键值的分类结果,确定候选实例集;grouper根据候选实例分配权重表,在候选实例集中确定出目标实例,将数据流中的元组分配给目标实例。采用本发明,可以将高频键分发给所有下游实例,通过平均处理延迟和网络延迟计算实例权重,经过多轮反馈调整后,使实例间的负载处于相对平衡的水平。

    一种通信和资源感知的数据流分组方法及系统

    公开(公告)号:CN116319381A

    公开(公告)日:2023-06-23

    申请号:CN202310594872.4

    申请日:2023-05-25

    Inventor: 孙大为 陈哲

    Abstract: 本发明公开了一种通信和资源感知的数据流分组方法及系统,涉及分布式流计算技术领域。包括:监控模块获取拓扑信息,并将拓扑信息发送至下游任务选择模块;其中,拓扑信息包括数据流分组任务的CPU资源和拓扑中各个任务间的通信距离;下游任务选择模块进行数据流中字段值频率的预测,并根据字段值频率预测结果以及拓扑信息进行数据流分组。本发明能够以较低的字段值拆分程度实现下游有状态运算符实例的负载均衡,并提高拓扑中元组的吞吐量,降低系统延迟。

Patent Agency Ranking