强化学习数据采样方法、系统、设备和存储介质

    公开(公告)号:CN116776962A

    公开(公告)日:2023-09-19

    申请号:CN202310619912.6

    申请日:2023-05-29

    Applicant: 浙江大学

    Abstract: 本申请涉及一种强化学习数据采样方法、系统、设备和存储介质,通过中心节点获取环境交互节点生成的环境状态样本,将环境状态样本存储至经验集,将环境状态样本发送至动作计算节点,接收并存储动作计算节点生成的动作样本,将动作样本发送至环境交互接单,继续接收并处理环境交互节点根据动作样本进行更新后的环境状态样本,并根据环境状态样本与动作样本生成轨迹样本,当经验集存储的轨迹样本的数量达到第一阈值时,将轨迹样本发送至策略更新节点,策略更新节点根据轨迹样本对模型进行优化,并将优化后的模型参数发送至动作计算节点,保证了各种节点信息的高效读写,解决了相关技术中强化学习在计算资源有限的情况下采样效率较低的问题。

Patent Agency Ranking