-
公开(公告)号:CN120069082A
公开(公告)日:2025-05-30
申请号:CN202510222707.5
申请日:2025-02-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括:对待训练LLM进行多轮自迭代直接偏好优化DPO训练,并在停止条件被满足时停止训练;其中,对于正整数i,对第i‑1轮训练得到的i‑1级LLM进行第i轮训练,包括:从预设的问题库中随机选取样本问题,将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案,并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分;根据所述样本答案的评分结果从所述样本问题中确定可用样本问题,并基于所述可用样本问题及其对应的可用样本答案构建训练数据;利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。