具有实时性的深度强化学习方法

    公开(公告)号:CN119005288B

    公开(公告)日:2025-05-06

    申请号:CN202411024024.0

    申请日:2024-07-29

    Abstract: 本发明公开了一种具有实时性的深度强化学习方法,所述方法包括如下步骤:步骤1、估计决策动作的均值:Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作:在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作;步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性。

    具有实时性的深度强化学习方法

    公开(公告)号:CN119005288A

    公开(公告)日:2024-11-22

    申请号:CN202411024024.0

    申请日:2024-07-29

    Abstract: 本发明公开了一种具有实时性的深度强化学习方法,所述方法包括如下步骤:步骤1、估计决策动作的均值:Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作:在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作;步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性。

Patent Agency Ranking