一种基于长文本训练大语言模型的方法及装置

    公开(公告)号:CN119004107A

    公开(公告)日:2024-11-22

    申请号:CN202411123941.4

    申请日:2024-08-15

    Abstract: 本说明书实施例提供了一种基于长文本训练大语言模型的方法,所述大语言模型包括预训练的目标解码器,该方法包括:对目标长文本进行文本分割,得到多个文本块。将各个文本块输入文本编码器进行编码,得到各文本块对应的编码表征。将各个编码表征输入映射网络进行处理,得到映射至目标解码器的嵌入空间的映射表征。将多个文本块的映射表征,以及第一提示文本对应的文本表征,输入目标解码器,得到第一答案文本,其中第一提示文本用于指示大语言模型,根据映射表征,重述目标长文本。根据第一答案文本与目标长文本,确定第一损失。根据预测损失,更新文本编码器和所述映射网络,其中预测损失包含第一损失。

Patent Agency Ranking