大规模分布式作业状态控制方法、装置、终端及存储介质

    公开(公告)号:CN113326147B

    公开(公告)日:2024-04-05

    申请号:CN202110544547.8

    申请日:2021-05-19

    Abstract: 本发明公开了一种大规模分布式作业状态控制方法、装置、终端及存储介质,方法包括:接收目标消息体,其中,所述目标消息体是当目标作业的子任务状态发生变更时生成的;根据接收到所述目标消息体的接收时间戳和所述目标消息体的生成时间戳确定消息传输延迟时刻;若在所述消息传输延迟时刻前没有接收到新的所述目标消息体,则根据在所述消息传输延迟时刻前存储的所述目标消息体对所述目标作业的状态值进行更新处理。本发明可以避免作业管理系统中显示的作业状态值与实际状态不符。

    基于插件化的多场景Kubernetes任务提交方法

    公开(公告)号:CN112328385A

    公开(公告)日:2021-02-05

    申请号:CN202110000926.0

    申请日:2021-01-04

    Abstract: 本发明公开了基于插件化的多场景Kubernetes任务提交方法,方法包括:将用户任务模块转译成标准任务模板;为标准任何模板设置对应的影响因子;对具有影响因子的标准任务模板进行检查,筛选出符合预设条件的标准任务模板;对符合预设条件的标准任务模板进行修饰;将修饰后的标准任务模板与唯一的调度器进行绑定,得到绑定后的标准任务模板;将绑定后的标准任务模板设置操作策略,并在设置完成后提交至Kubernetes资源管理服务。本发明将提交任务中所涉及的处理逻辑插件化,当提交任务时,可调用所有的插件运行,既能保证多场景任务成功运行,又能保持任务提交系统自身的可维护性和处理逻辑的松耦合。

    基于Spark的大规模数据全局去重方法、电子设备及介质

    公开(公告)号:CN116561110A

    公开(公告)日:2023-08-08

    申请号:CN202310439940.X

    申请日:2023-04-18

    Abstract: 本申请提出一种基于Spark的大规模数据去重方法、电子设备和存储介质,通过将大规模语料数据进行预处理,将预处理后得到的第一处理文档存储至不同存储分区,再在各个存储分区内对第一处理文档进行分组,从而排除大量完全不相关的文档,再进行相似检测得到每个第一处理文档的相似对,并在文档分组、存储分区以及全局三种粒度上对相似对进行合并,在文档分组和存储分区的粒度上通过分布式并行运行的方法对相似对进行高效率合并,大大减少系统全局粒度上合并的计算量,从而实现对大规模数据的高效率模糊去重。

    大规模分布式作业状态控制方法、装置、终端及存储介质

    公开(公告)号:CN113326147A

    公开(公告)日:2021-08-31

    申请号:CN202110544547.8

    申请日:2021-05-19

    Abstract: 本发明公开了一种大规模分布式作业状态控制方法、装置、终端及存储介质,方法包括:接收目标消息体,其中,所述目标消息体是当目标作业的子任务状态发生变更时生成的;根据接收到所述目标消息体的接收时间戳和所述目标消息体的生成时间戳确定消息传输延迟时刻;若在所述消息传输延迟时刻前没有接收到新的所述目标消息体,则根据在所述消息传输延迟时刻前存储的所述目标消息体对所述目标作业的状态值进行更新处理。本发明可以避免作业管理系统中显示的作业状态值与实际状态不符。

    基于插件化的多场景Kubernetes任务提交方法

    公开(公告)号:CN112328385B

    公开(公告)日:2021-04-06

    申请号:CN202110000926.0

    申请日:2021-01-04

    Abstract: 本发明公开了基于插件化的多场景Kubernetes任务提交方法,方法包括:将用户任务模块转译成标准任务模板;为标准任何模板设置对应的影响因子;对具有影响因子的标准任务模板进行检查,筛选出符合预设条件的标准任务模板;对符合预设条件的标准任务模板进行修饰;将修饰后的标准任务模板与唯一的调度器进行绑定,得到绑定后的标准任务模板;将绑定后的标准任务模板设置操作策略,并在设置完成后提交至Kubernetes资源管理服务。本发明将提交任务中所涉及的处理逻辑插件化,当提交任务时,可调用所有的插件运行,既能保证多场景任务成功运行,又能保持任务提交系统自身的可维护性和处理逻辑的松耦合。

Patent Agency Ranking