-
公开(公告)号:CN119443155A
公开(公告)日:2025-02-14
申请号:CN202411450863.9
申请日:2024-10-16
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/045 , G06N3/0475 , G06N3/092 , G06N3/09
Abstract: 本说明书实施例提供了大语言模型的训练方法及装置。该方法包括:获取训练样本集,其中的各训练样本均包括问题、偏好回答和非偏好回答,并且部分训练样本各自包括的偏好回答和非偏好回答相同;对于训练样本集中任意的第一样本,将其中的第一问题作为模型输入,在获得参考模型和待优化的大语言模型各自生成第一样本中的第一偏好回答的第一概率后,根据第一概率确定针对第一偏好回答的第一奖励值;确定针对第一样本中的第一非偏好回答的第二奖励值,其响应于确定第一偏好回答和第一非偏好回答相同而为0;基于训练损失更新大语言模型的参数,该训练损失与第一奖励值和第二奖励值的差值负相关。
-
公开(公告)号:CN119004108A
公开(公告)日:2024-11-22
申请号:CN202411123942.9
申请日:2024-08-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F40/117
Abstract: 本说明书实施例涉及训练语言模型的方法及装置,方法包括:首先,将目标输入文本分别输入目标语言模型以及预训练的参考语言模型,得到两个模型各自关于第一输出文本的概率值,以及各自关于第二输出文本的概率值,其中,第一输出文本相对于第二输出文本被标记为关于所述目标输入文本的偏好输出文本;然后,确定训练损失,其与第一损失项负相关,且与第二损失项正相关;其中,第一损失项包括所述两个模型关于第一输出文本的概率值之间的差异;第二损失项包括所述两个模型关于第二输出文本的概率值之间的差异与0之间的较大值;接下来,以减小所述训练损失为目标,调整所述目标语言模型中的参数。
-