一种与机器学习框架解耦的容错训练方法及装置

    公开(公告)号:CN119918621A

    公开(公告)日:2025-05-02

    申请号:CN202510404733.X

    申请日:2025-04-02

    Abstract: 本说明书公开了一种与机器学习框架解耦的容错训练方法及装置。在本说明书提供的机器学习框架解耦的容错训练方法中,可以在定位到发生异常的异常从节点后,将异常从节点从训练网络出剔除,并选择合适的备援从节点补充异常从节点的空缺,快速构建新的重构训练网络,重新执行未完成的训练,自动快速地重启训练任务,减少不必要的用户工作量;同时,本方法在执行过程中与机器学习训练框架解耦,能够以最小的代码侵入成本实现,大幅降低了学习与应用时需要的成本。

    一种面向异构联邦的多类别作业分发管理方法和系统

    公开(公告)号:CN117707794B

    公开(公告)日:2024-06-18

    申请号:CN202410160828.7

    申请日:2024-02-05

    Abstract: 本发明公开了一种面向异构联邦的多类别作业分发管理方法和系统,所述方法包括:获取自定义的作业资源;监听自定义的作业资源的创建事件、删除事件和/或更新事件;当自定义的作业资源已完成调度后,响应于自定义的作业资源的创建事件和/或更新事件,根据作业类型将自定义的作业资源渲染成对应的计算作业实例;根据自定义的作业资源的调度结果,将渲染后的计算作业实例分发至对应的计算集群;监听计算集群中计算作业实例的状态变更事件,从而更新自定义的作业资源的当前状态。本发明能够在异构的多集群环境中,对不同类型作业进行抽象,形成可被调度器调度的自定义作业资源,统一进行作业渲染、分发和作业生命周期维护。

    一种算力交易合约生成方法、装置和算力资源管理平台

    公开(公告)号:CN117435349B

    公开(公告)日:2024-04-30

    申请号:CN202311718748.0

    申请日:2023-12-14

    Abstract: 本申请涉及一种算力交易合约生成方法、装置和算力资源管理平台。所述方法包括接收算力资源申请信息;根据算力资源申请信息,确定预设的计费规则池中与算力资源申请信息所匹配的计费规则;基于所述计费规则,对算力资源申请信息进行算力分配预校验,得到预校验结果;在预校验结果显示预校验通过的情况下,基于算力资源申请信息和计费规则,生成算力交易合约和算力结算清单;算力交易合约,包括用户身份信息、算力分配信息和结算模式。采用本方法能够解决现有的算力资源分配方法无法自动生成算力交易合约而导致算力交易流程复杂的问题。

    一种面向微小型数据中心的系统组件集群部署方法及装置

    公开(公告)号:CN117407008B

    公开(公告)日:2024-04-19

    申请号:CN202311722141.X

    申请日:2023-12-14

    Inventor: 周卓凡 高翔 韩樑

    Abstract: 本申请提供了一种面向微小型数据中心的系统组件集群部署方法及装置,包括获取对应系统组件的物料,基于预设的物料部署规范进行物料部署;对已部署的物料进行定制化裁剪,得到系统组件部署物料交付包;对系统组件部署物料交付包进行处理,得到生成工作流引擎依赖的工作流负载文件,对工作流负载文件进行编辑,控制工作流引擎执行编辑后的工作流负载文件完成系统组件安装。提供了微小型数据中心系统组件的部署物料构建规范,使得系统组件支持快速整体部署,系统各功能组件由部署脚本和配置清单。借组件部署工作流引擎,编排组件安装执行顺序、进行多组件部署参数的批量配置、自定义裁剪组件部署,使得部署流程更加灵活、可裁剪、可定制。

    一种面向异构联邦的多类别作业分发管理方法和系统

    公开(公告)号:CN117707794A

    公开(公告)日:2024-03-15

    申请号:CN202410160828.7

    申请日:2024-02-05

    Abstract: 本发明公开了一种面向异构联邦的多类别作业分发管理方法和系统,所述方法包括:获取自定义的作业资源;监听自定义的作业资源的创建事件、删除事件和/或更新事件;当自定义的作业资源已完成调度后,响应于自定义的作业资源的创建事件和/或更新事件,根据作业类型将自定义的作业资源渲染成对应的计算作业实例;根据自定义的作业资源的调度结果,将渲染后的计算作业实例分发至对应的计算集群;监听计算集群中计算作业实例的状态变更事件,从而更新自定义的作业资源的当前状态。本发明能够在异构的多集群环境中,对不同类型作业进行抽象,形成可被调度器调度的自定义作业资源,统一进行作业渲染、分发和作业生命周期维护。

    一种基于k8s的多集群组件管理方法、装置及计算机设备

    公开(公告)号:CN117573295A

    公开(公告)日:2024-02-20

    申请号:CN202410059955.8

    申请日:2024-01-16

    Abstract: 本申请提供了基于k8s的多集群组件管理方法、装置及计算机设备,包括获取子集群元数据,在主集群中对所述子集群元数据进行渲染;在所述主集群中定义组件元数据的数据结构,将重定义后的所述组件元数据在所述主集群中进行渲染;基于所述组件元数据获取组件子集群的部署信息,根据所述部署信息将所述组件子集群信息渲染至对应的子集群;监听所述子集群的组件部署状态,将状态信息同步至主集群组件元数据;通过将多个集群分为主从结构,在主集群维护了多个子集群中不同组件元数据,通过管理主集群中组件元数据,实现统一管理多个子集群中不同组件的运行生命周期。实现了简单,可靠的多集群组件管理功能,降低了多集群维护成本。

    一种微服务API的管理方法、装置、介质及电子设备

    公开(公告)号:CN117478725A

    公开(公告)日:2024-01-30

    申请号:CN202311427624.7

    申请日:2023-10-30

    Inventor: 林露 高翔 潘爱民

    Abstract: 本说明书公开了一种微服务API的管理方法、装置、介质及电子设备,通过管理单元获取待修改API的第一信息,并将待修改API的第一信息发送至持久化存储单元。通过管理单元,获取持久化存储单元中的待修改API的第一信息,以及获取服务器中预先存储的各API的第二信息,并将第一信息以及第二信息发送至路由单元。通过路由单元,基于第一信息中的待修改API的标识以及第二信息中各API的标识,在服务器中预先存储的各API中,确定待修改的API,并基于第一信息中修改后的API的定义,对待修改的API的定义进行修改。该方法可实现对微服务系统的服务器中的微服务API的动态修改,提高了管理微服务API便利度。

    面向异构算力联邦的多集群作业资源规格计算方法和系统

    公开(公告)号:CN117331678A

    公开(公告)日:2024-01-02

    申请号:CN202311632017.4

    申请日:2023-12-01

    Inventor: 董赵宇 高翔 杨磊

    Abstract: 本申请涉及一种面向异构算力联邦的多集群作业资源规格计算方法和系统,其中,面向异构算力联邦的多集群作业资源规格计算方法包括:监测资源数据的变更获得第一目标事件和第二目标事件;基于所述第二目标事件生成资源规格数据,获得当前资源状况下多集群的资源规格方案;根据所述第一目标事件对应的目标作业的资源需求属性对当前资源状况下多集群的资源规格方案进行筛选,获得多个可选资源规格方案;根据所述目标作业的资源需求总量,遍历所述多个可选资源规格方案,获得最优资源规格方案,并根据所述最优资源规格方案修改所述目标作业的初始资源规格配置,提高了在多集群和高性能计算环境中处理零散碎片的效率和主动性。

    面向智能芯片的设备管理装置和方法

    公开(公告)号:CN117170879A

    公开(公告)日:2023-12-05

    申请号:CN202311437174.X

    申请日:2023-11-01

    Inventor: 高翔 潘爱民

    Abstract: 本申请涉及一种面向智能芯片的设备管理装置和方法,其中,该装置包括信息采集模块,用于获取设备信息;数据存储模块,分别与设备管理模块、用于存储设备信息、智能芯片加速卡资源调度信息和设置信息;设备设置模块,用于对设备的目标参数进行设置;资源监控模块,用于监控设备的运行情况和智能芯片加速卡资源的使用情况;设备管理模块,用于调度智能芯片加速卡资源。通过本申请,解决了传统的设备管理装置对于智能芯片加速卡资源的利用效率较低问题,提高了加速卡资源的利用效率。

Patent Agency Ranking