大语言模型增强的高效强化学习信用分配方法及装置

    公开(公告)号:CN119443197A

    公开(公告)日:2025-02-14

    申请号:CN202411475138.7

    申请日:2024-10-22

    Applicant: 清华大学

    Abstract: 本申请涉及强化学习技术领域,特别涉及一种大语言模型增强的高效强化学习信用分配方法及装置,其中,方法包括:利用目标大语言模型的先验知识获取目标环境信息中的潜在奖励;基于潜在奖励增强的回报分解方式,将潜在奖励转换为代理奖励;将代理奖励添加至强化学习训练中,以获得大语言模型增强的高效强化学习信用分配结果。由此,解决了相关技术中大语言模型的语言知识与特定任务所需的符号表示之间的存在差异,同时大语言模型推理中存在随机性和幻觉现象,导致模型的信任度较低,降低了强化学习系统的整体性能的问题。

    基于大语言模型与强化学习的状态表征方法及装置

    公开(公告)号:CN118504612A

    公开(公告)日:2024-08-16

    申请号:CN202410426712.3

    申请日:2024-04-10

    Applicant: 清华大学

    Abstract: 本申请涉及大语言模型与强化学习技术领域,特别涉及一种基于大语言模型与强化学习的状态表征方法及装置,其中,方法包括:利用自然语言的描述器将强化学习的源状态表征转换为一定大语言模型的状态表征,其中,一定大语言模型的状态表征包括任务描述、状态细节、输出要求和反馈信息中的至少之一;将其输入一定大语言模型后生成强化学习智能体增强的状态表征函数和内在奖励函数;基于增强的状态表征函数和内在奖励函数以更新维护对应的利普西茨数组,产生满足一定平滑条件的状态表征。由此,解决了相关技术中,不仅需要大量的样本进行学习,样本利用率与学习效率均较低,而且还需要与大语言模型进行频繁交互,时间成本开销较高,适用性不足等问题。

    基于大语言模型的多智能体强化学习探索方法及装置

    公开(公告)号:CN118333183A

    公开(公告)日:2024-07-12

    申请号:CN202410433959.8

    申请日:2024-04-11

    Applicant: 清华大学

    Abstract: 本申请涉及大语言模型技术领域,特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置,其中,方法包括:基于预设的至少一个提示模板,利用大语言模型生成关键状态判别函数;基于关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态;将关键状态作为先验信息形式得到多智能体强化学习探索结果。本申请可以通过大语言模型在一轮对话中生成关键状态判别函数来进行后续的关键状态识别,将大语言模型的语言形式的知识引入到决策任务中,极大地减少了由于频繁调用大语言模型带来的成本的同时,可以有效地推动多智能体高效探索。

    离线强化学习中的双重轻微泛化方法、装置、设备及介质

    公开(公告)号:CN119476526A

    公开(公告)日:2025-02-18

    申请号:CN202411475137.2

    申请日:2024-10-22

    Applicant: 清华大学

    Abstract: 本申请涉及离线强化学习技术领域,特别涉及一种离线强化学习中的双重轻微泛化方法、装置、设备及介质,其中,方法包括:基于轻微泛化策略,获取离线数据集邻近区域的目标动作;利用目标动作确定轻微泛化的最大值,并将轻微泛化的最大值与目标样本内最大值融合至贝尔曼目标中,以获得改进的贝尔曼目标;利用改进的贝尔曼目标调整离线强化学习中的值函数高估放大效应,以获得离线强化学习的双重轻微泛化结果。由此,解决了相关技术中无法利用神经网络的泛化能力,导致离线数据利用率低,降低了强化学习算法的性能的问题。

    协同模式多样化导向的无监督多智能体强化学习方法

    公开(公告)号:CN115496208A

    公开(公告)日:2022-12-20

    申请号:CN202211420475.7

    申请日:2022-11-15

    Applicant: 清华大学

    Abstract: 本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。

    协同模式多样化导向的无监督多智能体强化学习方法

    公开(公告)号:CN115496208B

    公开(公告)日:2023-04-18

    申请号:CN202211420475.7

    申请日:2022-11-15

    Applicant: 清华大学

    Abstract: 本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。

    基于瓦瑟斯坦距离的无监督强化学习方法及装置

    公开(公告)号:CN114219066A

    公开(公告)日:2022-03-22

    申请号:CN202111270803.5

    申请日:2021-10-29

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于瓦瑟斯坦距离的无监督强化学习方法及装置,该方法包括获取智能体的当前策略引导得到的轨迹里的状态分布;计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;根据瓦瑟斯坦距离计算智能体的伪回报,并以伪回报代替目标强化学习框架中的环境反馈的回报,引导智能体的当前策略与其他历史策略保持大的距离。该方法利用瓦瑟斯坦距离,来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。

Patent Agency Ranking