-
公开(公告)号:CN117892818A
公开(公告)日:2024-04-16
申请号:CN202410303342.4
申请日:2024-03-18
Applicant: 浙江大学
IPC: G06N5/022 , G06N5/04 , G06F16/332 , G06F16/36
Abstract: 本发明公开了一种基于隐式思维链的大语言模型推理性内容生成方法,该方法主要包括:利用预训练大语言模型的问答能力,通过提问的方式促使模型生成文本形式的思考过程;将其思考过程输入进文本嵌入模型提取思考过程的高维隐式嵌入;将高维的隐式嵌入作为大语言模型的输入,替代原有的思维链过程,引导大语言模型输出正确的推理结果。本发明充分利用大语言模型的少样本模仿能力,同时利用其能够借助推理过程得出正确答案的特性,提升了大语言模型在推理相关问题上的表现性能,准确性优于现有方法,并且具有较强的通用性,适用于任意大语言模型针对任意推理类问题的生成。
-
公开(公告)号:CN117892818B
公开(公告)日:2024-05-28
申请号:CN202410303342.4
申请日:2024-03-18
Applicant: 浙江大学
IPC: G06N5/022 , G06N5/04 , G06F16/332 , G06F16/36
Abstract: 本发明公开了一种基于隐式思维链的大语言模型推理性内容生成方法,该方法主要包括:利用预训练大语言模型的问答能力,通过提问的方式促使模型生成文本形式的思考过程;将其思考过程输入进文本嵌入模型提取思考过程的高维隐式嵌入;将高维的隐式嵌入作为大语言模型的输入,替代原有的思维链过程,引导大语言模型输出正确的推理结果。本发明充分利用大语言模型的少样本模仿能力,同时利用其能够借助推理过程得出正确答案的特性,提升了大语言模型在推理相关问题上的表现性能,准确性优于现有方法,并且具有较强的通用性,适用于任意大语言模型针对任意推理类问题的生成。
-