Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"谢志添" Page 1

1.

发明公开
大语言模型的训练方法及装置审中-实审

公开(公告)号：CN118246505A

公开(公告)日：2024-06-25

申请号：CN202410089426.2

申请日：2024-01-22

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 谢志添 , 庄晨熠 , 石起涛 , 顾进杰 , 张冠男

IPC: G06N3/08 , G06N3/0442 , G06N3/042 , G06N3/045 , G06N3/096 , G06N3/0499 , G06N3/084

Abstract: 本说明书实施例提供一种大语言模型的训练方法及装置，以及一种预测模型的训练方法及装置。其中大语言模型的训练方法包括：首先，将训练样本的样本特征输入大语言模型，得到对应的预测结果；该训练样本包括自然语言文本，大语言模型包括混合专家神经网络MoE，所述MoE网络包括门控网络和多个专家网络。接着，基于所述预测结果和所述训练样本的样本标签，确定任务损失项；以及，基于所述多个专家网络对应的多个输出，确定蒸馏损失项；所述多个专家网络之间互为蒸馏学习中的学生和老师。之后，基于所述任务损失项和蒸馏损失项，训练所述大语言模型。

Patent Agency Ranking