-
公开(公告)号:CN119004107A
公开(公告)日:2024-11-22
申请号:CN202411123941.4
申请日:2024-08-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F16/332 , G06F16/33 , G06F40/126 , G06F40/30 , G06N3/0455 , G06N3/088
Abstract: 本说明书实施例提供了一种基于长文本训练大语言模型的方法,所述大语言模型包括预训练的目标解码器,该方法包括:对目标长文本进行文本分割,得到多个文本块。将各个文本块输入文本编码器进行编码,得到各文本块对应的编码表征。将各个编码表征输入映射网络进行处理,得到映射至目标解码器的嵌入空间的映射表征。将多个文本块的映射表征,以及第一提示文本对应的文本表征,输入目标解码器,得到第一答案文本,其中第一提示文本用于指示大语言模型,根据映射表征,重述目标长文本。根据第一答案文本与目标长文本,确定第一损失。根据预测损失,更新文本编码器和所述映射网络,其中预测损失包含第一损失。