-
公开(公告)号:CN117787421B
公开(公告)日:2024-05-31
申请号:CN202410201337.2
申请日:2024-02-23
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N5/04 , G06F40/166
Abstract: 本发明公开了一种基于思维链确定问题答案的方法和装置、电子设备,属于人工智能技术领域,所述方法包括:获取待解答问题以及多个样本数据,其中,每个所述样本数据包括:一个问题和所述问题对应的第一求解计划;将所述待解答问题与多个所述样本数据进行拼接后输入模型,得到待解答问题对应的第二求解计划;控制所述模型按照所述第二求解计划中的每个步骤执行求解,直至完成最后一个步骤,得到目标答案。本申请提供的基于思维链确定问题答案的方案,既能够赋予思维链纠错能力,又可以人为或者模型自动干预对第二求解计划中的第一步骤进行修正。
-
公开(公告)号:CN117852616B
公开(公告)日:2024-05-31
申请号:CN202410229872.9
申请日:2024-02-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于增强拒绝采样训练的大语言模型对齐微调方法和系统,涉及人工智能技术领域,包括:基于有监督微调后的大语言模型,为预设指令请求文本生成N条响应文本;基于训练好的奖励模型对每条响应文本进行评估,得到奖励分数;将N条响应文本按照对应的奖励分数由高到低排序,并选取前k条响应文本组成目标样本集;基于预设加权函数,计算每条响应文本对应的数据权重;基于预设指令请求文本、目标样本集中的响应文本和数据权重构建加权微调数据集,并基于加权微调数据集对有监督微调后的大语言模型进行对齐微调,得到目标大语言模型。本发明缓解了现有技术存在的过拟合风险高、易受有噪奖励分数干扰的技术问题。
-
公开(公告)号:CN117852616A
公开(公告)日:2024-04-09
申请号:CN202410229872.9
申请日:2024-02-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于增强拒绝采样训练的大语言模型对齐微调方法和系统,涉及人工智能技术领域,包括:基于有监督微调后的大语言模型,为预设指令请求文本生成N条响应文本;基于训练好的奖励模型对每条响应文本进行评估,得到奖励分数;将N条响应文本按照对应的奖励分数由高到低排序,并选取前k条响应文本组成目标样本集;基于预设加权函数,计算每条响应文本对应的数据权重;基于预设指令请求文本、目标样本集中的响应文本和数据权重构建加权微调数据集,并基于加权微调数据集对有监督微调后的大语言模型进行对齐微调,得到目标大语言模型。本发明缓解了现有技术存在的过拟合风险高、易受有噪奖励分数干扰的技术问题。
-
公开(公告)号:CN117787421A
公开(公告)日:2024-03-29
申请号:CN202410201337.2
申请日:2024-02-23
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N5/04 , G06F40/166
Abstract: 本发明公开了一种基于思维链确定问题答案的方法和装置、电子设备,属于人工智能技术领域,所述方法包括:获取待解答问题以及多个样本数据,其中,每个所述样本数据包括:一个问题和所述问题对应的第一求解计划;将所述待解答问题与多个所述样本数据进行拼接后输入模型,得到待解答问题对应的第二求解计划;控制所述模型按照所述第二求解计划中的每个步骤执行求解,直至完成最后一个步骤,得到目标答案。本申请提供的基于思维链确定问题答案的方案,既能够赋予思维链纠错能力,又可以人为或者模型自动干预对第二求解计划中的第一步骤进行修正。
-
-
-