-
公开(公告)号:CN113177632A
公开(公告)日:2021-07-27
申请号:CN202110396491.6
申请日:2021-04-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了基于流水线并行的模型训练方法。包括:根据正常训练顺序对待训练模型进行切分,得到多个子切片;将正常训练顺序在前的一部分子切片划分至第一组中,构成第一子模型,将剩余的子切片划分至第二组中,构成第二子模型;将第一子模型包含的子切片分配给不同的工作方,以及将第二子模型包含的子切片分配给不同的工作方;根据调整得到的训练顺序,在被分配了子切片的工作方上为子切片分配训练时间块,训练顺序包括:针对单轮训练样本,依次执行第一子模型本周期的正向传播、第一子模型前一周期的反向传播、第二子模型本周期的正向传播、第二子模型本周期的反向传播;按照训练时间块,在多个工作方上对待训练模型进行并行训练。
-
公开(公告)号:CN112183668B
公开(公告)日:2022-07-22
申请号:CN202011211152.8
申请日:2020-11-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。
-
公开(公告)号:CN112183668A
公开(公告)日:2021-01-05
申请号:CN202011211152.8
申请日:2020-11-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。
-
公开(公告)号:CN113177632B
公开(公告)日:2022-10-14
申请号:CN202110396491.6
申请日:2021-04-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了基于流水线并行的模型训练方法。包括:根据正常训练顺序对待训练模型进行切分,得到多个子切片;将正常训练顺序在前的一部分子切片划分至第一组中,构成第一子模型,将剩余的子切片划分至第二组中,构成第二子模型;将第一子模型包含的子切片分配给不同的工作方,以及将第二子模型包含的子切片分配给不同的工作方;根据调整得到的训练顺序,在被分配了子切片的工作方上为子切片分配训练时间块,训练顺序包括:针对单轮训练样本,依次执行第一子模型本周期的正向传播、第一子模型前一周期的反向传播、第二子模型本周期的正向传播、第二子模型本周期的反向传播;按照训练时间块,在多个工作方上对待训练模型进行并行训练。
-
-
-