-
公开(公告)号:CN111415389A
公开(公告)日:2020-07-14
申请号:CN202010191659.5
申请日:2020-03-18
Applicant: 清华大学
Abstract: 本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的无标签六维物体姿态预测方法及装置。所述技术方案包括:获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;根据所述预测结果,确定所述目标对象的三维位置和三维方向。本公开实施例通过引入强化学习来训练姿态预测模型,根据目标图像采用预先训练得到的姿态预测模型进行姿态预测,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。
-
公开(公告)号:CN111415389B
公开(公告)日:2023-08-29
申请号:CN202010191659.5
申请日:2020-03-18
Applicant: 清华大学
IPC: G06T7/73 , G06N3/092 , G06N3/0895
Abstract: 本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的无标签六维物体姿态预测方法及装置。所述技术方案包括:获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;根据所述预测结果,确定所述目标对象的三维位置和三维方向。本公开实施例通过引入强化学习来训练姿态预测模型,根据目标图像采用预先训练得到的姿态预测模型进行姿态预测,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。
-
公开(公告)号:CN115496208A
公开(公告)日:2022-12-20
申请号:CN202211420475.7
申请日:2022-11-15
Applicant: 清华大学
Abstract: 本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
-
公开(公告)号:CN115496208B
公开(公告)日:2023-04-18
申请号:CN202211420475.7
申请日:2022-11-15
Applicant: 清华大学
IPC: G06N3/084 , G06F18/214 , G06N3/092
Abstract: 本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
-
公开(公告)号:CN115630710A
公开(公告)日:2023-01-20
申请号:CN202211437431.5
申请日:2022-11-16
Applicant: 清华大学
IPC: G06N20/00
Abstract: 本申请涉及深度强化学习技术领域,特别涉及一种基于自组织群组的多智能体强化学习方法,其中,方法包括:识别智能体为指挥者智能体或非指挥者智能体;若智能体为指挥者智能体,则基于视线范围内的一个或多个非指挥者智能体组成自组织群组,接收自组织群组内所有非指挥者智能体的个人信息,并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体,基于共享信息执行目标环境的探索任务;若智能体为非指挥者智能体,则基于共享信息或本地信息执行目标环境的探索任务。由此,解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成,无法解决多智能体强化学习中的零射泛化性等问题。
-
公开(公告)号:CN118504612A
公开(公告)日:2024-08-16
申请号:CN202410426712.3
申请日:2024-04-10
Applicant: 清华大学
Abstract: 本申请涉及大语言模型与强化学习技术领域,特别涉及一种基于大语言模型与强化学习的状态表征方法及装置,其中,方法包括:利用自然语言的描述器将强化学习的源状态表征转换为一定大语言模型的状态表征,其中,一定大语言模型的状态表征包括任务描述、状态细节、输出要求和反馈信息中的至少之一;将其输入一定大语言模型后生成强化学习智能体增强的状态表征函数和内在奖励函数;基于增强的状态表征函数和内在奖励函数以更新维护对应的利普西茨数组,产生满足一定平滑条件的状态表征。由此,解决了相关技术中,不仅需要大量的样本进行学习,样本利用率与学习效率均较低,而且还需要与大语言模型进行频繁交互,时间成本开销较高,适用性不足等问题。
-
公开(公告)号:CN118333183A
公开(公告)日:2024-07-12
申请号:CN202410433959.8
申请日:2024-04-11
Applicant: 清华大学
IPC: G06N20/00 , G06F16/332 , G06F16/901 , G06F16/903
Abstract: 本申请涉及大语言模型技术领域,特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置,其中,方法包括:基于预设的至少一个提示模板,利用大语言模型生成关键状态判别函数;基于关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态;将关键状态作为先验信息形式得到多智能体强化学习探索结果。本申请可以通过大语言模型在一轮对话中生成关键状态判别函数来进行后续的关键状态识别,将大语言模型的语言形式的知识引入到决策任务中,极大地减少了由于频繁调用大语言模型带来的成本的同时,可以有效地推动多智能体高效探索。
-
公开(公告)号:CN117438031A
公开(公告)日:2024-01-23
申请号:CN202210846709.8
申请日:2022-07-06
Applicant: 中国医学科学院阜外医院 , 清华大学
Abstract: 本文提供了一种药物剂量动态决策方法、装置及系统,药物剂量调整具有连续性及动态性,方法包括:获取待调药患者的关键变量数据,根据关键变量数据确定多维度变量向量;将变量向量输入至预先训练的药物剂量决策模型中,得到推荐药物剂量;发送推荐药物剂量至终端显示,以辅助医生决策药物剂量;药物剂量决策模型根据电子病历系统中历史样本数据训练深度Q网络得到;历史样本数据包括状态、动作及奖励;深度Q网络训练使用的损失函数中添加有约束项,约束项用于提高历史样本数据分布中状态‑动作情况以及降低最大预期奖励回报。本实施例通过增加约束项使得药物剂量决策模型更具有合理性,进而提高患者诊疗安全性。
-
公开(公告)号:CN115630710B
公开(公告)日:2023-04-11
申请号:CN202211437431.5
申请日:2022-11-16
Applicant: 清华大学
IPC: G06N20/00
Abstract: 本申请涉及深度强化学习技术领域,特别涉及一种基于自组织群组的多智能体强化学习方法,其中,方法包括:识别智能体为指挥者智能体或非指挥者智能体;若智能体为指挥者智能体,则基于视线范围内的一个或多个非指挥者智能体组成自组织群组,接收自组织群组内所有非指挥者智能体的个人信息,并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体,基于共享信息执行目标环境的探索任务;若智能体为非指挥者智能体,则基于共享信息或本地信息执行目标环境的探索任务。由此,解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成,无法解决多智能体强化学习中的零射泛化性等问题。
-
公开(公告)号:CN114781248A
公开(公告)日:2022-07-22
申请号:CN202210357609.9
申请日:2022-04-06
Applicant: 清华大学
IPC: G06F30/27 , G06F119/02
Abstract: 本申请公开了一种基于状态偏移矫正的离线强化学习方法及装置,其中,方法包括:从离线强化学习的数据集中随机采样当前时间步的样本,根据最大似然估计训练环境模型和状态转移模型;基于预设噪声构建被扰动的状态,获取由训练后的环境模型基于动作得到的下一时刻的第一状态,及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态;利用第一状态和第二状态之间的距离更新策略网络,并通过保守动作值函数学习训练动作值网络,直至满足收敛条件,生成基于状态偏移矫正的离线强化学习模型。由此,解决了相关技术中采用限制策略的方法,忽略数据集覆盖状态的全面性,从而导致训练策略和数据集策略的状态分布不匹配的技术问题。
-
-
-
-
-
-
-
-
-