-
公开(公告)号:CN114186671A
公开(公告)日:2022-03-15
申请号:CN202111516644.2
申请日:2021-12-07
Applicant: 南京大学
Abstract: 本发明公开一种大批量的去中心化分布式图像分类器训练方法和系统,各工作节点使用本地图像分类器参数,根据本地存储的图像样本计算随机梯度后,对梯度进行归一化处理,并使用该归一化梯度更新动量和本地参数。各节点与邻居节点通信以获得其最新图像分类器参数,并与自身本地图像分类器参数做加权平均,作为新的本地参数参与到下一轮更新。不断重复以上训练步骤,直到达到停止条件时,各个节点停止,将各节点上的参数平均值作为最终的输出参数。本发明中的方法取消中心节点,不会出现中心节点处拥塞的问题,与此同时,本方法适用于大批量图像分类器训练,大批量训练可以减少参数更新和通信次数,从而可以充分利用GPU等计算资源,大幅提高训练效率。
-
公开(公告)号:CN118917435A
公开(公告)日:2024-11-08
申请号:CN202411000289.7
申请日:2024-07-24
Applicant: 南京大学
IPC: G06N20/00
Abstract: 本发明公开一种基于有序动量的异步分布式机器学习方法,基于有序动量的思想,将动量引入异步随机梯度下降法。在服务器端将梯度按照其迭代索引的顺序组织成有序动量。这里的有序动量是若干个梯度存储桶的加权和,梯度到达服务器端后,根据其迭代索引放入相应的梯度存储桶中。相比较异步随机梯度下降方法,本方法不引入除了动量项外的额外存储开销,并且可以有效提升算法的收敛性能和模型的泛化性能。相比较现有的带动量的同步分布式机器学习方法,本方法可以大幅度提升训练集群分布式训练的速度,尤其是在训练集群中各工作节点计算能力异构的场景下,本方法的速度优势更加明显。
-