用于优化模型训练的方法和装置
    2.
    发明公开

    公开(公告)号:CN116258215A

    公开(公告)日:2023-06-13

    申请号:CN202310244713.1

    申请日:2023-03-08

    Abstract: 本说明书的实施例提供了一种用于优化模型训练的方法和装置。在该用于优化模型训练的方法中,根据所获取的待优化模型训练作业的模型特征和硬件资源需求信息生成至少一个候选优化策略,并通过对各个候选优化策略基于可行性和训练性能指标进行评估,从而确定目标优化策略,再根据所确定的目标优化策略进行模型训练。

    一种模型训练方法、装置、存储介质及设备

    公开(公告)号:CN116090584A

    公开(公告)日:2023-05-09

    申请号:CN202310096352.0

    申请日:2023-01-31

    Inventor: 沙剑 张吉

    Abstract: 本说明书公开了一种模型训练方法、装置、存储介质及设备。当前节点与其他节点基于不同的训练样本,通过待训练模型确定输出,以各自根据输出计算待训练模型的稠密参数的梯度,以及稀疏参数的梯度。各节点交互自身计算得到的梯度后,基于稠密参数对应的梯度更新稠密参数,并各自基于稀疏参数对应的梯度,更新自身所需更新的稀疏参数。不同节点所需更新的稀疏参数不完全相同。更新参数后,当前节点根据更新后的稠密参数以及稀疏参数,继续联合其他节点对待训练模型进行分布式训练。能够通过分布式训练,采用不同的方式,分别对待训练模型的稀疏参数及稠密参数进行同步更新,提升模型的训练效率。

    业务模型训练及在线更新的方法、装置

    公开(公告)号:CN118940860A

    公开(公告)日:2024-11-12

    申请号:CN202411069844.1

    申请日:2024-08-05

    Inventor: 沙剑 张科

    Abstract: 本说明书实施例提供一种业务模型训练及在线更新的方法、装置,用于训练及更新梯度提升树架构下的业务模型。业务模型可以包括若干基学习器,业务模型更新的方法可以包括离线更新和在线更新两部分。在离线训练业务模型时,采用基于梯度提升树逐次增加基学习器数量的训练构思,对于用于拟合残差的新增基学习器,通过梯度的正交分解使其仅拟合与已知基学习器相关性较小的分量,在线上预测阶段,可以利用流数据更新各个基学习器的权重系数,并检测是否需要增加新的基学习器。该实施方式为梯度提升树下的模型的线上更新提供有效的解决方案。

    分布式训练系统的组网方法和装置

    公开(公告)号:CN117675497A

    公开(公告)日:2024-03-08

    申请号:CN202311640823.6

    申请日:2023-11-30

    Inventor: 王勤龙 沙剑

    Abstract: 本说明书实施例提供一种分布式训练系统的组网方法和装置,分布式训练系统包括一个主控节点和多个训练节点,主控节点基于通用处理单元实现,训练节点基于专用加速单元实现,方法包括:主控节点启动第一数目个训练节点,并为每个训练节点分配对应的序号;接收任一训练节点启动成功后发送的第一上报信息,包括训练节点的序号和训练进程的进程数;根据接收到的第一数目个训练节点的第一上报信息形成第一统计列表,并将其发送给各个训练节点,以使各个训练节点根据第一统计列表进行通信组网,并行执行目标训练任务。能够实现分布式训练系统的自动容错,在节点出现故障后,也能够继续训练任务。

    一种全局规约方法和系统
    6.
    发明公开

    公开(公告)号:CN117395258A

    公开(公告)日:2024-01-12

    申请号:CN202311204314.9

    申请日:2023-09-18

    Abstract: 本说明书实施例提供一种全局规约方法和系统,适用于含分组网络,所述网络包括计算层,计算层包括两个以上计算组,且每个计算组包含两个以上计算节点,所述方法包括:在每个计算组内执行局部规约,以使得每个计算组内的至少一个计算节点得到待规约数据的组内规约结果;在组间执行全局规约,以使得各计算组内的至少一个计算节点得到待规约数据的全局规约结果;在每个计算组内执行结果传播,以使得各计算组内的每个计算节点得到待规约数据的全局规约结果。

    强化学习模型训练方法及装置
    7.
    发明公开

    公开(公告)号:CN118350483A

    公开(公告)日:2024-07-16

    申请号:CN202410559576.5

    申请日:2024-05-07

    Abstract: 本说明书实施例涉及强化学习模型训练方法及系统,应用于模型训练系统,所述模型训练系统包括至少一个训练进程和至少一个推理进程;所述方法包括:任一推理进程获取模型最新权重,并更新强化学习模型的权重值;然后,根据输入数据使用更新后的强化学习模型生成响应数据,基于输入数据和响应数据形成训练样本,并将训练样本存入目标存储区;任一训练进程从所述目标存储区中获取所述训练样本;然后,根据所述训练样本更新强化学习模型的权重值,并将更新后的模型权重发送给各个推理进程。

Patent Agency Ranking