-
公开(公告)号:CN119293233A
公开(公告)日:2025-01-10
申请号:CN202411210233.4
申请日:2024-08-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/31 , G06N3/0455 , G06N3/0985
Abstract: 本发明属于语言模型处理领域,涉及一种基于渐进式学习的模型微调方法和系统。该方法在预训练模型的微调过程中,根据Transformer块对模型性能的不同贡献,将对预训练模型的性能贡献大的Transformer块进行着重训练,将对预训练模型的性能贡献小的Transformer块进行少量训练。本发明将渐进式学习的思想引入到模型微调中,在微调过程中逐渐减少参与更新的Transformer块,实现了对计算资源消耗的节约,同时减少了参数的过度训练,在减少更新参数量、训练时间的同时,能够减少计算资源的浪费及对训练数据的过拟合现象。
-
公开(公告)号:CN119067199A
公开(公告)日:2024-12-03
申请号:CN202411005467.5
申请日:2024-07-25
Applicant: 中国科学院信息工程研究所
IPC: G06N3/098 , G06N3/0464 , G06N3/042 , G06N3/045 , G06V10/82 , G06V10/44 , G06V10/764 , G06V10/94
Abstract: 本发明公开了一种基于构建客户端间协作图的个性化联邦学习训练方法,属于联邦学习技术领域。本发明的核心步骤包括:1)基于KL散度计算客户端之间的特征分布距离,2)基于计算的邻接矩阵归一化后构建有向协作图,3)基于有向图的聚合带有结构信息的模型,4)本地优化。本发明主要涉及数据分布异质面临的挑战,特别涉及客户端数据分布之间的潜在关系建模,实现了通过构建客户端协作图和提出协作图辅助的个性化聚合与训练方法,缓解了数据异质等挑战,促进了个性化联邦学习中的知识共享。
-