-
公开(公告)号:CN117875449A
公开(公告)日:2024-04-12
申请号:CN202410048420.0
申请日:2024-01-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00 , G06F40/20 , G06F40/126 , G06F16/35
Abstract: 本说明书的实施例提供了一种基于持续预训练的语言模型训练方法和装置。在该基于持续预训练的语言模型训练方法中,利用当前软提示生成模型得到与当前领域的各个当前训练样本对应的软提示特征;进而利用当前语言模型根据各个文本数据和对应的软提示特征得到各个文本数据对应于当前领域的隐特征;再基于所得到的各个文本数据对应于当前领域的隐特征与相应基于所述初始当前语言模型而得到的对应于上一领域的隐特征之间的差异,确定跨域损失值;在不满足当前领域的训练结束条件时根据跨域损失值调整当模型参数;在满足当前领域的训练结束条件时继续利用下一领域的训练样本集重复执行上述模型训练过程,直至满足持续预训练的训练结束条件。