流计算作业的在线数据倾斜调整方法及装置

    公开(公告)号:CN115437777A

    公开(公告)日:2022-12-06

    申请号:CN202110614491.9

    申请日:2021-06-02

    Abstract: 本发明提供一种流计算作业的在线数据倾斜调整方法及装置,包括:获取时间周期内Task的数据量统计信息,以确定Task中各数据分片的数据倾斜度;若数据分片的数据倾斜度大于倾斜阈值,分析数据分片中Key的数据量偏差状态,以调整数据分片中Key所属的数据分片,并构建数据分片‑Key映射表;Task的所有上游Task,结合数据分片‑Key映射表,执行对目标Task的数据分发。本发明提供的流计算作业的在线数据倾斜调整方法及装置,基于数据分片方式,根据数据量统计信息,通过改变Key与数据分片的映射关系,动态优化数据倾斜,并实现Key状态在线迁移,且保证相关性数据分发到相同Task,有效地提升了流计算的速率。

    多存储引擎的数据备份方法、装置、电子设备及存储介质

    公开(公告)号:CN115408200A

    公开(公告)日:2022-11-29

    申请号:CN202110587723.6

    申请日:2021-05-27

    Abstract: 本发明提供一种多存储引擎的数据备份方法、装置、电子设备及存储介质,包括:创建目标数据库的基准备份集;在任一存储引擎中启动数据增量捕捉获取增量数据;由增量数据与相关的元数据信息,构成增量文件;将增量文件与基准备份集关联,生成时间点备份集。本发明提供的数据备份方法及装置,仅需要在多个存储引擎中选择记录一个增量修改,并保存为独立于每个存储引擎的增量文件,同时添加事务ID等元数据信息,使得该增量文件中能够包含需要的数据和信息,以便能够对数据库系统中的多种存储引擎进行增量备份及恢复,有效地解决了目前多存储引擎备份存在的实现复杂度高、增量数据冗余的问题,实现了每个存储引擎均能完整支持增量备份和时间点恢复。

    一种流计算的在线伸缩方法及装置

    公开(公告)号:CN115408145A

    公开(公告)日:2022-11-29

    申请号:CN202110587740.X

    申请日:2021-05-27

    Abstract: 本发明提供一种流计算的在线伸缩方法、装置、电子设备及存储介质,包括:获取各计算线程Task的CPU平均使用率、内存平均使用率和数据平均积压量,以计算综合压力,根据综合压力确定在线伸缩状态;根据在线伸缩状态,计算最新Task并行度,以根据最新Task并行度,制定在线伸缩策略;执行在线伸缩策略,实现对于流计算的在线伸缩。本发明提供的流计算的在线伸缩方法及装置,扩展了Flink增加伸缩判断和伸缩控制的能力,周期性地基于Task的实际计算压力,作为伸缩决策依据,以在保持平滑的前提下,自动计算出合适并行度,动态迁移状态到新的Task,在保持数据消费不中断的基础上,能更加合理的利用计算资源。

    一种作业任务的执行方法、装置、电子设备、存储介质

    公开(公告)号:CN110609745A

    公开(公告)日:2019-12-24

    申请号:CN201810621461.9

    申请日:2018-06-15

    Abstract: 本发明公开了一种作业任务的执行方法、装置、电子设备、存储介质,用以解决集群资源利用率低的问题。方法包括:获取待执行的第一作业任务针对每种资源的理论需求量;获取到的针对每种资源的理论需求量为根据在预设时间段内集群执行与第一作业任务的类型相同的其他作业任务时,针对每种资源的实际使用量确定的;判断当前保存的集群针对每种资源的剩余量是否不小于获取的对应种资源的理论需求量;若均为是,将第一作业任务及其针对每种资源的理论需求量发送给集群,使集群采用每种资源的理论需求量执行第一作业任务。因为根据相同类型的其他作业任务对资源的实际使用情况,为该第一作业任务确定资源量,在一定程度上提高了集群资源的利用率。

Patent Agency Ranking