Patent search ap:("清华大学") AND inv:"王博源" Page 1

1.

发明公开
大语言模型增强的高效强化学习信用分配方法及装置审中-实审

公开(公告)号：CN119443197A

公开(公告)日：2025-02-14

申请号：CN202411475138.7

申请日：2024-10-22

Applicant: 清华大学

Inventor： 季向阳 , 曲云 , 蒋雨航 , 王博源 , 毛逸休 , 王琦 , 刘畅

IPC: G06N3/092 , G06N3/045

Abstract: 本申请涉及强化学习技术领域，特别涉及一种大语言模型增强的高效强化学习信用分配方法及装置，其中，方法包括：利用目标大语言模型的先验知识获取目标环境信息中的潜在奖励；基于潜在奖励增强的回报分解方式，将潜在奖励转换为代理奖励；将代理奖励添加至强化学习训练中，以获得大语言模型增强的高效强化学习信用分配结果。由此，解决了相关技术中大语言模型的语言知识与特定任务所需的符号表示之间的存在差异，同时大语言模型推理中存在随机性和幻觉现象，导致模型的信任度较低，降低了强化学习系统的整体性能的问题。

2.

发明公开
基于大语言模型与强化学习的状态表征方法及装置审中-实审

公开(公告)号：CN118504612A

公开(公告)日：2024-08-16

申请号：CN202410426712.3

申请日：2024-04-10

Applicant: 清华大学

Inventor： 季向阳 , 王博源 , 曲云 , 蒋雨航 , 邵键准 , 刘畅 , 杨文明

IPC: G06N3/045 , G06N3/092 , G06N3/098

Abstract: 本申请涉及大语言模型与强化学习技术领域，特别涉及一种基于大语言模型与强化学习的状态表征方法及装置，其中，方法包括：利用自然语言的描述器将强化学习的源状态表征转换为一定大语言模型的状态表征，其中，一定大语言模型的状态表征包括任务描述、状态细节、输出要求和反馈信息中的至少之一；将其输入一定大语言模型后生成强化学习智能体增强的状态表征函数和内在奖励函数；基于增强的状态表征函数和内在奖励函数以更新维护对应的利普西茨数组，产生满足一定平滑条件的状态表征。由此，解决了相关技术中，不仅需要大量的样本进行学习，样本利用率与学习效率均较低，而且还需要与大语言模型进行频繁交互，时间成本开销较高，适用性不足等问题。

3.

发明公开
基于大语言模型的多智能体强化学习探索方法及装置审中-实审

公开(公告)号：CN118333183A

公开(公告)日：2024-07-12

申请号：CN202410433959.8

申请日：2024-04-11

Applicant: 清华大学

Inventor： 季向阳 , 曲云 , 王博源 , 蒋雨航 , 邵键准 , 刘畅 , 王琦

IPC: G06N20/00 , G06F16/332 , G06F16/901 , G06F16/903

Abstract: 本申请涉及大语言模型技术领域，特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置，其中，方法包括：基于预设的至少一个提示模板，利用大语言模型生成关键状态判别函数；基于关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态；将关键状态作为先验信息形式得到多智能体强化学习探索结果。本申请可以通过大语言模型在一轮对话中生成关键状态判别函数来进行后续的关键状态识别，将大语言模型的语言形式的知识引入到决策任务中，极大地减少了由于频繁调用大语言模型带来的成本的同时，可以有效地推动多智能体高效探索。

Patent Agency Ranking