-
公开(公告)号:CN112183668B
公开(公告)日:2022-07-22
申请号:CN202011211152.8
申请日:2020-11-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。
-
公开(公告)号:CN112183668A
公开(公告)日:2021-01-05
申请号:CN202011211152.8
申请日:2020-11-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种并行训练业务模型的方法,该方法可以由多个设备执行,业务模型可以按照对业务数据的处理顺序分割为依次连接的多个子模型。其中,前向过程,在获取当前的若干个训练样本后,各个设备依次利用各个子模型处理若干当前训练样本,其中,对于单个训练样本,依次经过各个设备经由相应子模型进行处理,得到单个处理结果,设备Gi处理训练样本Sj时,在其他设备中存在空闲设备的情况下,将相应的子模型Mi的部分模型参数广播至若干空闲设备,以供设备Gi和所述若干空闲设备以层内并行的方式处理训练样本Sj的相关数据。反向传播过程亦然,如此往复,从而提高设备的利用率和大规模模型训练效率。
-
公开(公告)号:CN116128021A
公开(公告)日:2023-05-16
申请号:CN202310134555.4
申请日:2023-02-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/0455 , G06N3/047 , G06N3/098 , G06F40/289
Abstract: 本说明书实施例提供一种基于序列模型的并行处理方法及装置。该方法由各自部署序列模型的n个设备中任意的第i个设备执行,包括:获取对输入序列进行第一划分而得到的n份中的第i个子序列;基于序列模型中的自注意力参数,将第i个子序列分别映射为查询序列、键序列和值序列;对查询序列进行第二划分得到m个微序列;与其他的n‑1个设备共同执行m轮处理,任意的第j轮处理包括:将第j个微序列作为目标序列分别发送至n‑1个设备;基于目标序列、键序列和值序列,与n‑1个设备各自的键序列、值序列和该目标序列共同执行分布式计算,得到全局注意力编码;基于m个全局注意力编码确定与第i个子序列对应的注意力编码序列,以确定输入序列的预测结果。
-
-