基于理科题目解答任务的蒙特卡洛树搜索方法及装置

    公开(公告)号:CN117933392A

    公开(公告)日:2024-04-26

    申请号:CN202410065460.6

    申请日:2024-01-16

    Applicant: 清华大学

    Abstract: 本发明公开了基于理科题目解答任务的蒙特卡洛树搜索方法及装置,本发明方法,包括获取具有分步解答标注的理科题目数据集;将理科题目数据集输入至价值模型以利用逐步回归法进行价值模型训练,并利用蒙特卡洛树策略模型对每道题目进行搜索解答确定对应的搜索树以进行策略模型训练;其中,搜索树的树节点为若干推理步骤构成的针对理科题目的解答,树边为进行的单步推理步数;基于训练好的价值模型和训练好的蒙特卡洛树策略模型构建搜索模型;将实时理科题目数据输入至搜索模型以基于训练好的价值模型输出的节点状态价值评估结果进行树搜索得到数据搜索解答结果。本发明可以大幅提高模型在较难的大学理科题目解答的任务中的推理性能,有效解答。

    一种数据科学领域大语言模型评估方法、装置及存储介质

    公开(公告)号:CN119578522A

    公开(公告)日:2025-03-07

    申请号:CN202411561121.3

    申请日:2024-11-04

    Applicant: 清华大学

    Abstract: 本发明涉及数据科学技术领域,尤其是指一种数据科学领域大语言模型评估方法、装置、设备及计算机存储介质。本发明所述的大语言模型评估方法,从粗粒度的角度来看,首先汇总任务类型、函数和相应的代码的范围,然后,从细粒度的角度来看,根据特定的任务为每个函数的输出定义编程规则,并将结果与标准答案进行比较,最终,通过生成的测试用例集对目标大语言模型进行评估;本发明从综合的角度为每个子任务生成标准答案并定义特定的评估指标,从而能够面向更复杂的由多个子任务组成的现实世界任务的大语言模型评估。

Patent Agency Ranking