基于大语言模型的强化学习奖励函数生成方法及装置

    公开(公告)号:CN119168012A

    公开(公告)日:2024-12-20

    申请号:CN202411194886.8

    申请日:2024-08-28

    Abstract: 本申请公开了一种基于大语言模型的强化学习奖励函数生成方法及装置。所述方法包括:获取原始任务描述数据、环境代码数据和提示词调用模板数据;将原始任务描述数据、环境代码数据、初始化提示词模板和代码总结提示词模板输入到预设大语言模型,得到第一环境变量输出结果;响应于第一环境变量输出结果满足第一预设条件,将温度参数和奖励函数生成提示词模板输入到预设大语言模型,生成第一奖励函数;将第一奖励函数输入到强化学习环境中进行训练,得到第二奖励函数,并且将第二奖励函数中与相应的任务成功率均值的最大值对应的奖励函数作为最终的奖励函数,第二奖励函数是将第一奖励函数中不满足第二预设条件的奖励函数删除之后得到的奖励函数。

Patent Agency Ranking