用于深度学习模型训练的方法、装置及系统

    公开(公告)号:CN114139723B

    公开(公告)日:2024-06-21

    申请号:CN202111443369.6

    申请日:2021-11-30

    Inventor: 王勤龙 章海涛

    Abstract: 本说明书实施例提供了用于深度学习模型训练的方法、装置及系统。包括计算节点和参数服务器节点的深度学习资源管理系统与分布式集群通信连接,计算节点包括主计算节点和从计算节点,参数服务器节点用于存储和更新模型参数。在该方法中,启动主计算节点和参数服务器节点,将一个数据分片下发给主计算节点,以使主计算节点和参数服务器节点执行一次模型迭代计算;在主计算节点的模型迭代计算过程中确定主计算节点的第一内存实际使用量;根据第一内存实际使用量预估第一内存使用量;以及按照所预估的第一内存使用量来配置并启动各个从计算节点,以使主计算节点、各个从计算节点以及参数服务器节点基于多个数据分片中的其他数据分片进行模型训练。

    用于深度学习模型训练的方法、装置及系统

    公开(公告)号:CN114139723A

    公开(公告)日:2022-03-04

    申请号:CN202111443369.6

    申请日:2021-11-30

    Inventor: 王勤龙 章海涛

    Abstract: 本说明书实施例提供了用于深度学习模型训练的方法、装置及系统。包括计算节点和参数服务器节点的深度学习资源管理系统与分布式集群通信连接,计算节点包括主计算节点和从计算节点,参数服务器节点用于存储和更新模型参数。在该方法中,启动主计算节点和参数服务器节点,将一个数据分片下发给主计算节点,以使主计算节点和参数服务器节点执行一次模型迭代计算;在主计算节点的模型迭代计算过程中确定主计算节点的第一内存实际使用量;根据第一内存实际使用量预估第一内存使用量;以及按照所预估的第一内存使用量来配置并启动各个从计算节点,以使主计算节点、各个从计算节点以及参数服务器节点基于多个数据分片中的其他数据分片进行模型训练。

    数据共享的机器学习方法和机器学习装置

    公开(公告)号:CN110796267A

    公开(公告)日:2020-02-14

    申请号:CN201911102002.0

    申请日:2019-11-12

    Abstract: 本说明书实施例公开了数据共享的机器学习方法和机器学习装置。所述方法包括:使用本地原始数据进行本地学习,得到本地模型;对本地原始数据和/或本地模型进行加密,得到加密共享内容;将加密共享内容发送给共享学习平台,以供共享学习平台根据多个数据提供方的提供的加密共享内容在可信执行环境中生成共享模型;从共享学习平台获取共享模型。本说明书实施例的方法和装置可以利用多个数据提供方的数据实现机器学习,在学习过程中,可以很好地实现保证数据的安全和用户的隐私。

    动态调度模型训练资源的方法及装置

    公开(公告)号:CN116523030B

    公开(公告)日:2023-09-15

    申请号:CN202310792482.8

    申请日:2023-06-30

    Inventor: 章海涛 韩旭东

    Abstract: 本说明书实施例披露一种动态调度模型训练资源的方法及装置。该方法包括:先将强化学习任务对应的环境状态空间切分成多个子空间,作为待处理的多个环境状态切片;再选取若干环境状态切片对应分配给集群中的若干第一节点,以使该若干第一节点各自基于接收到的环境状态切片,利用强化学习模型与环境交互生成经验样本,该经验样本被存储至重放缓冲区,并由所述集群中的若干第二节点进行读取以训练所述强化学习模型;之后,根据经验样本的生成速度和消耗速度之间的大小关系,增加第一节点和/或第二节点,或者,在确定出集群的空闲资源量小于其他的高优先级任务的需求资源量的情况下,删除部分第一节点和/或部分第二节点。

    动态调度模型训练资源的方法及装置

    公开(公告)号:CN116523030A

    公开(公告)日:2023-08-01

    申请号:CN202310792482.8

    申请日:2023-06-30

    Inventor: 章海涛 韩旭东

    Abstract: 本说明书实施例披露一种动态调度模型训练资源的方法及装置。该方法包括:先将强化学习任务对应的环境状态空间切分成多个子空间,作为待处理的多个环境状态切片;再选取若干环境状态切片对应分配给集群中的若干第一节点,以使该若干第一节点各自基于接收到的环境状态切片,利用强化学习模型与环境交互生成经验样本,该经验样本被存储至重放缓冲区,并由所述集群中的若干第二节点进行读取以训练所述强化学习模型;之后,根据经验样本的生成速度和消耗速度之间的大小关系,增加第一节点和/或第二节点,或者,在确定出集群的空闲资源量小于其他的高优先级任务的需求资源量的情况下,删除部分第一节点和/或部分第二节点。

    分布式模型训练的训练管理方法及相关装置

    公开(公告)号:CN117407713A

    公开(公告)日:2024-01-16

    申请号:CN202311346413.0

    申请日:2023-10-17

    Inventor: 张吉 章海涛

    Abstract: 本公开提供一种分布式模型训练的训练管理方法、装置、系统、设备及存储介质,管理程序用于管理执行分布式训练的多个训练任务,多个训练任务分别基于用户配置的初始训练配置信息,针对目标模型进行分布式训练;在对所述目标模型进行分布式训练的过程中,获取所述多个训练任务针对所述目标模型进行分布式训练的训练状态,并基于所述训练状态决策是否需要对所述初始训练配置信息进行更新;如果是,获取用户指定的目标训练配置信息,将所述目标训练配置信息分别下发至所述多个训练任务,以触发所述多个训练任务基于所述目标训练配置信息将与自身对应的初始训练配置信息进行更新后重新运行,以继续对所述目标模型进行分布式训练。

    用于优化模型训练的方法和装置
    7.
    发明公开

    公开(公告)号:CN116258215A

    公开(公告)日:2023-06-13

    申请号:CN202310244713.1

    申请日:2023-03-08

    Abstract: 本说明书的实施例提供了一种用于优化模型训练的方法和装置。在该用于优化模型训练的方法中,根据所获取的待优化模型训练作业的模型特征和硬件资源需求信息生成至少一个候选优化策略,并通过对各个候选优化策略基于可行性和训练性能指标进行评估,从而确定目标优化策略,再根据所确定的目标优化策略进行模型训练。

Patent Agency Ranking