一种大语言模型的强化学习训练方法及相关设备

    公开(公告)号:CN119990303A

    公开(公告)日:2025-05-13

    申请号:CN202411853165.3

    申请日:2024-12-16

    Inventor: 霍亮宇 杨青

    Abstract: 本申请公开了一种大语言模型的强化学习训练方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法获取奖励模型和评论者模型对行为者模型进行响应训练的评估,作为强化训练的训练反馈,在对行为者模型进行强化训练中,在对行为者模型进行参数更新的同时,也协调更新评论者模型,可以减少因模型不匹配导致的不稳定性和振荡,避免行为者模型过度拟合到某个特定的评估标准,确保行为者模型和评论者模型之间的协调,同时评论者模型能够更好地适应环境的变化,提供更准确的评估结果,从而帮助行为者模型更快地收敛到最优策略。

    大语言模型对齐方法、装置、电子设备及可读存储介质

    公开(公告)号:CN119513306A

    公开(公告)日:2025-02-25

    申请号:CN202411461656.3

    申请日:2024-10-18

    Inventor: 霍亮宇

    Abstract: 本公开提供一种大语言模型对齐方法、装置、电子设备及可读存储介质,涉及机器学习技术领域。所述方法包括:获取待对齐的大语言模型对应的初始偏好数据集;基于多个所述初始偏好数据集的子集,训练得到每个所述初始偏好数据集的子集对应的奖励模型;确定所述奖励模型中的降噪模型;基于所述降噪模型将所述初始偏好数据集划分为高噪声偏好数据集及低噪声偏好数据集;确定所述高噪声偏好数据集对应的第一损失函数,以及所述低噪声偏好数据集对应的第二损失函数,并基于所述第一损失函数及所述第二损失函数优化所述奖励模型;基于优化后的奖励模型对所述待对齐的大语言模型进行对齐训练。本公开有效降低了噪声数据对奖励模型训练的影响。

Patent Agency Ranking