一种分布式模型训练系统及方法

    公开(公告)号:CN118396140B

    公开(公告)日:2024-09-13

    申请号:CN202410849948.8

    申请日:2024-06-27

    Abstract: 本说明书公开了一种分布式模型训练系统及方法,第二计算节点基于适应度函数确定各树型结构模型的当前适应度,选择目标树型结构模型,第一计算节点选择参考树型结构模型,根据参考树型结构模型和目标树型结构模型,生成进化操作执行任务,将其分配给各第二计算节点,使其执行各进化操作执行任务,得到更新后的树型结构模型,第一计算节点从各更新后的树型结构模型中确定各选中的树型结构模型,并以此构建当前待训练模型,迭代多次直到满足第一预设条件,得到训练完成的目标模型。可见,上述方案实现了基于大型计算集群的分布式训练的适配,解决了大型树型模型占用计算资源高的问题,提升了大型树型模型的训练效率。

    一种图形处理器内存优化方法、装置、介质及设备

    公开(公告)号:CN117522669B

    公开(公告)日:2024-03-26

    申请号:CN202410025766.9

    申请日:2024-01-08

    Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。

    一种分布式模型训练系统及方法

    公开(公告)号:CN118396140A

    公开(公告)日:2024-07-26

    申请号:CN202410849948.8

    申请日:2024-06-27

    Abstract: 本说明书公开了一种分布式模型训练系统及方法,第二计算节点基于适应度函数确定各树型结构模型的当前适应度,选择目标树型结构模型,第一计算节点选择参考树型结构模型,根据参考树型结构模型和目标树型结构模型,生成进化操作执行任务,将其分配给各第二计算节点,使其执行各进化操作执行任务,得到更新后的树型结构模型,第一计算节点从各更新后的树型结构模型中确定各选中的树型结构模型,并以此构建当前待训练模型,迭代多次直到满足第一预设条件,得到训练完成的目标模型。可见,上述方案实现了基于大型计算集群的分布式训练的适配,解决了大型树型模型占用计算资源高的问题,提升了大型树型模型的训练效率。

    一种图形处理器内存优化方法、装置、介质及设备

    公开(公告)号:CN117522669A

    公开(公告)日:2024-02-06

    申请号:CN202410025766.9

    申请日:2024-01-08

    Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。

Patent Agency Ranking