-
公开(公告)号:CN119398128B
公开(公告)日:2025-03-25
申请号:CN202411988061.3
申请日:2024-12-31
Applicant: 安徽大学
Abstract: 本发明公开了一种预训练语言模型精确参数的微调方法及系统,方法包括:构建鲁棒适配器;将多个构建好的鲁棒适配器串联形成鲁棒适配器链并确定最大链节点;准备预训练语言模型的权重和对应任务标注的数据集;先对鲁棒适配器链中每个鲁棒适配器进行初步训练优化近似微调鲁棒适配器的参数;近似微调鲁棒适配器的参数后,将其与前序冻结的预训练语言模型的权重合并完成当前鲁棒适配器链节点的计算,并生成用于下一次迭代的残差信息,并同时更新当前鲁棒适配器的参数;进行迭代训练,更新残差信息,直至迭代次数等于鲁棒适配器链的最大节点,获取预训练语言模型的最佳权重以及鲁棒适配器的最佳参数,本发明能提供更稳定的收敛性和更简单的超参数调整。
-
公开(公告)号:CN119398128A
公开(公告)日:2025-02-07
申请号:CN202411988061.3
申请日:2024-12-31
Applicant: 安徽大学
Abstract: 本发明公开了一种预训练语言模型精确参数的微调方法及系统,方法包括:构建鲁棒适配器;将多个构建好的鲁棒适配器串联形成鲁棒适配器链并确定最大链节点;准备预训练语言模型的权重和对应任务标注的数据集;先对鲁棒适配器链中每个鲁棒适配器进行初步训练优化近似微调鲁棒适配器的参数;近似微调鲁棒适配器的参数后,将其与前序冻结的预训练语言模型的权重合并完成当前鲁棒适配器链节点的计算,并生成用于下一次迭代的残差信息,并同时更新当前鲁棒适配器的参数;进行迭代训练,更新残差信息,直至迭代次数等于鲁棒适配器链的最大节点,获取预训练语言模型的最佳权重以及鲁棒适配器的最佳参数,本发明能提供更稳定的收敛性和更简单的超参数调整。
-