一种基于渐进式学习的模型微调方法和系统

    公开(公告)号:CN119293233A

    公开(公告)日:2025-01-10

    申请号:CN202411210233.4

    申请日:2024-08-30

    Abstract: 本发明属于语言模型处理领域,涉及一种基于渐进式学习的模型微调方法和系统。该方法在预训练模型的微调过程中,根据Transformer块对模型性能的不同贡献,将对预训练模型的性能贡献大的Transformer块进行着重训练,将对预训练模型的性能贡献小的Transformer块进行少量训练。本发明将渐进式学习的思想引入到模型微调中,在微调过程中逐渐减少参与更新的Transformer块,实现了对计算资源消耗的节约,同时减少了参数的过度训练,在减少更新参数量、训练时间的同时,能够减少计算资源的浪费及对训练数据的过拟合现象。

Patent Agency Ranking