离线强化学习中基于支撑集的值正则化方法及装置

    公开(公告)号:CN117521850A

    公开(公告)日:2024-02-06

    申请号:CN202311517367.6

    申请日:2023-11-14

    Applicant: 清华大学

    Abstract: 本申请涉及强化学习技术领域,特别涉及一种离线强化学习中基于支撑集的值正则化方法及装置,其中,方法包括:获取重要性采样的偏差;根据重要性采样的偏差计算整个OOD区域的Q值总和,以作为策略评估的惩罚项;以及在策略评估的过程中,基于策略评估的惩罚项,最小化目标损失函数,使得惩罚项惩罚所有OOD动作的Q值,且保持ID动作的Q值进行标准贝尔曼更新。由此,解决了相关技术中,无法在不影响ID动作的Q值的情况下对所有OOD动作的Q值进行惩罚,容易收到干扰,可能限制离线强化学习的适应性,从而可能导致学习过程的不稳定性,进一步影响学习的不可靠性和不一致性等问题。

    基于自组织群组的多智能体强化学习方法

    公开(公告)号:CN115630710A

    公开(公告)日:2023-01-20

    申请号:CN202211437431.5

    申请日:2022-11-16

    Applicant: 清华大学

    Abstract: 本申请涉及深度强化学习技术领域,特别涉及一种基于自组织群组的多智能体强化学习方法,其中,方法包括:识别智能体为指挥者智能体或非指挥者智能体;若智能体为指挥者智能体,则基于视线范围内的一个或多个非指挥者智能体组成自组织群组,接收自组织群组内所有非指挥者智能体的个人信息,并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体,基于共享信息执行目标环境的探索任务;若智能体为非指挥者智能体,则基于共享信息或本地信息执行目标环境的探索任务。由此,解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成,无法解决多智能体强化学习中的零射泛化性等问题。

    无模型深度增强学习探索方法及装置

    公开(公告)号:CN107832836B

    公开(公告)日:2020-04-21

    申请号:CN201711205687.2

    申请日:2017-11-27

    Applicant: 清华大学

    Abstract: 本公开涉及一种无模型深度增强学习探索方法及装置,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。通过选择不同执行次数的动作,在深度强化学习的探索过程中,更加全面的得到各动作的环境回报值,进而提高探索效率。

    基于短时访问机制的强化学习方法、装置及存储介质

    公开(公告)号:CN111898727A

    公开(公告)日:2020-11-06

    申请号:CN201910370578.9

    申请日:2019-05-06

    Applicant: 清华大学

    Inventor: 季向阳 张宏昌

    Abstract: 本公开涉及一种基于短时访问机制的强化学习方法、装置及存储介质,其中,该方法包括:配置状态缓存列表,用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息;将智能体下一时刻的所有动作输入环境状态转移概率模型中,输出所有动作对应下一时刻的多个环境状态;将下一时刻的多个环境状态与状态缓存列表中状态增量信息进行比对,将多个环境状态中差异最大的环境状态对应的动作确定为智能体在下一时刻执行的第一备选动作;根据第一备选动作执行用于强化学习的探索操作。本公开通过状态缓存列表,避免对探索过的环境状态重复探索;通过环境状态转移概率模型,强化、指导智能体对未知状态的探索,有效提高了学习效率。

    基于短时访问机制的强化学习方法、装置及存储介质

    公开(公告)号:CN111898727B

    公开(公告)日:2024-07-19

    申请号:CN201910370578.9

    申请日:2019-05-06

    Applicant: 清华大学

    Inventor: 季向阳 张宏昌

    Abstract: 本公开涉及一种基于短时访问机制的强化学习方法、装置及存储介质,其中,该方法包括:配置状态缓存列表,用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息;将智能体下一时刻的所有动作输入环境状态转移概率模型中,输出所有动作对应下一时刻的多个环境状态;将下一时刻的多个环境状态与状态缓存列表中状态增量信息进行比对,将多个环境状态中差异最大的环境状态对应的动作确定为智能体在下一时刻执行的第一备选动作;根据第一备选动作执行用于强化学习的探索操作。本公开通过状态缓存列表,避免对探索过的环境状态重复探索;通过环境状态转移概率模型,强化、指导智能体对未知状态的探索,有效提高了学习效率。

    一种药物剂量动态决策方法、装置及系统

    公开(公告)号:CN117438031A

    公开(公告)日:2024-01-23

    申请号:CN202210846709.8

    申请日:2022-07-06

    Abstract: 本文提供了一种药物剂量动态决策方法、装置及系统,药物剂量调整具有连续性及动态性,方法包括:获取待调药患者的关键变量数据,根据关键变量数据确定多维度变量向量;将变量向量输入至预先训练的药物剂量决策模型中,得到推荐药物剂量;发送推荐药物剂量至终端显示,以辅助医生决策药物剂量;药物剂量决策模型根据电子病历系统中历史样本数据训练深度Q网络得到;历史样本数据包括状态、动作及奖励;深度Q网络训练使用的损失函数中添加有约束项,约束项用于提高历史样本数据分布中状态‑动作情况以及降低最大预期奖励回报。本实施例通过增加约束项使得药物剂量决策模型更具有合理性,进而提高患者诊疗安全性。

    基于自组织群组的多智能体强化学习方法

    公开(公告)号:CN115630710B

    公开(公告)日:2023-04-11

    申请号:CN202211437431.5

    申请日:2022-11-16

    Applicant: 清华大学

    Abstract: 本申请涉及深度强化学习技术领域,特别涉及一种基于自组织群组的多智能体强化学习方法,其中,方法包括:识别智能体为指挥者智能体或非指挥者智能体;若智能体为指挥者智能体,则基于视线范围内的一个或多个非指挥者智能体组成自组织群组,接收自组织群组内所有非指挥者智能体的个人信息,并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体,基于共享信息执行目标环境的探索任务;若智能体为非指挥者智能体,则基于共享信息或本地信息执行目标环境的探索任务。由此,解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成,无法解决多智能体强化学习中的零射泛化性等问题。

    基于状态偏移矫正的离线强化学习方法及装置

    公开(公告)号:CN114781248A

    公开(公告)日:2022-07-22

    申请号:CN202210357609.9

    申请日:2022-04-06

    Applicant: 清华大学

    Abstract: 本申请公开了一种基于状态偏移矫正的离线强化学习方法及装置,其中,方法包括:从离线强化学习的数据集中随机采样当前时间步的样本,根据最大似然估计训练环境模型和状态转移模型;基于预设噪声构建被扰动的状态,获取由训练后的环境模型基于动作得到的下一时刻的第一状态,及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态;利用第一状态和第二状态之间的距离更新策略网络,并通过保守动作值函数学习训练动作值网络,直至满足收敛条件,生成基于状态偏移矫正的离线强化学习模型。由此,解决了相关技术中采用限制策略的方法,忽略数据集覆盖状态的全面性,从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

    无模型深度增强学习探索方法及装置

    公开(公告)号:CN107832836A

    公开(公告)日:2018-03-23

    申请号:CN201711205687.2

    申请日:2017-11-27

    Applicant: 清华大学

    Abstract: 本公开涉及一种无模型深度增强学习探索方法及装置,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。通过选择不同执行次数的动作,在深度强化学习的探索过程中,更加全面的得到各动作的环境回报值,进而提高探索效率。

Patent Agency Ranking