一种基于动态层选择的高效联邦学习大模型训练方法

    公开(公告)号:CN119026707A

    公开(公告)日:2024-11-26

    申请号:CN202410907389.1

    申请日:2024-07-08

    Abstract: 本发明公开了一种基于动态层选择的高效联邦学习大模型训练方法,涉及联邦学习的高效训练技术领域。在本发明中,由服务器端选出部分最重要的层,交由客户端进行训练,即将部分计算量摊派到服务器端上,而客户端仅需更新极少部分的层的参数量,从而实现了对客户端计算压力与上传压力的极大减少,显著降低了客户端的计算压力和通信压力;本发明选出部分最重要的层具体为:服务器基于少量的本地训练数据对待训练模型进行初步训练,并获取待训练模型的每一线性层的梯度值,并基于该梯度值计算每一线性层的重要性评分,服务器选择前若干最高重要性评分和后若干个最低重要评分所对应的线性层作为当前的重要层;客户端根据本地训练结果仅训练部分最重要的层,从而极大减少了训练的计算需求和上传数据的参数量。同时,本发明无需对模型进行额外更改,因而具有很强的可扩展性。

Patent Agency Ranking