一种基于流水线并行的模型训练方法、装置以及设备

    公开(公告)号:CN113177632A

    公开(公告)日:2021-07-27

    申请号:CN202110396491.6

    申请日:2021-04-13

    Abstract: 本说明书实施例公开了基于流水线并行的模型训练方法。包括:根据正常训练顺序对待训练模型进行切分,得到多个子切片;将正常训练顺序在前的一部分子切片划分至第一组中,构成第一子模型,将剩余的子切片划分至第二组中,构成第二子模型;将第一子模型包含的子切片分配给不同的工作方,以及将第二子模型包含的子切片分配给不同的工作方;根据调整得到的训练顺序,在被分配了子切片的工作方上为子切片分配训练时间块,训练顺序包括:针对单轮训练样本,依次执行第一子模型本周期的正向传播、第一子模型前一周期的反向传播、第二子模型本周期的正向传播、第二子模型本周期的反向传播;按照训练时间块,在多个工作方上对待训练模型进行并行训练。

    并行训练业务模型的方法及装置

    公开(公告)号:CN112183668B

    公开(公告)日:2022-07-22

    申请号:CN202011211152.8

    申请日:2020-11-03

    Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。

    并行训练业务模型的方法及装置

    公开(公告)号:CN112183668A

    公开(公告)日:2021-01-05

    申请号:CN202011211152.8

    申请日:2020-11-03

    Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。

    基于序列模型的并行处理方法及装置

    公开(公告)号:CN116128021A

    公开(公告)日:2023-05-16

    申请号:CN202310134555.4

    申请日:2023-02-07

    Abstract: 本说明书实施例提供一种基于序列模型的并行处理方法及装置。该方法由各自部署序列模型的n个设备中任意的第i个设备执行,包括:获取对输入序列进行第一划分而得到的n份中的第i个子序列;基于序列模型中的自注意力参数,将第i个子序列分别映射为查询序列、键序列和值序列;对查询序列进行第二划分得到m个微序列;与其他的n‑1个设备共同执行m轮处理,任意的第j轮处理包括:将第j个微序列作为目标序列分别发送至n‑1个设备;基于目标序列、键序列和值序列,与n‑1个设备各自的键序列、值序列和该目标序列共同执行分布式计算,得到全局注意力编码;基于m个全局注意力编码确定与第i个子序列对应的注意力编码序列,以确定输入序列的预测结果。

    一种基于流水线并行的模型训练方法、装置以及设备

    公开(公告)号:CN113177632B

    公开(公告)日:2022-10-14

    申请号:CN202110396491.6

    申请日:2021-04-13

    Abstract: 本说明书实施例公开了基于流水线并行的模型训练方法。包括:根据正常训练顺序对待训练模型进行切分,得到多个子切片;将正常训练顺序在前的一部分子切片划分至第一组中,构成第一子模型,将剩余的子切片划分至第二组中,构成第二子模型;将第一子模型包含的子切片分配给不同的工作方,以及将第二子模型包含的子切片分配给不同的工作方;根据调整得到的训练顺序,在被分配了子切片的工作方上为子切片分配训练时间块,训练顺序包括:针对单轮训练样本,依次执行第一子模型本周期的正向传播、第一子模型前一周期的反向传播、第二子模型本周期的正向传播、第二子模型本周期的反向传播;按照训练时间块,在多个工作方上对待训练模型进行并行训练。

Patent Agency Ranking