-
公开(公告)号:CN119005288B
公开(公告)日:2025-05-06
申请号:CN202411024024.0
申请日:2024-07-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/092 , G06N3/045 , G06N3/0442 , G06N3/048
Abstract: 本发明公开了一种具有实时性的深度强化学习方法,所述方法包括如下步骤:步骤1、估计决策动作的均值:Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作:在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作;步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性。
-
公开(公告)号:CN119005288A
公开(公告)日:2024-11-22
申请号:CN202411024024.0
申请日:2024-07-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/092 , G06N3/045 , G06N3/0442 , G06N3/048
Abstract: 本发明公开了一种具有实时性的深度强化学习方法,所述方法包括如下步骤:步骤1、估计决策动作的均值:Agent从任意给定的初始估计状态开始,利用宽度学习系统从最新的数据中学习状态的增量;步骤2、选择决策动作:在以宽度学习系统的输出向量为均值,以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作;步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力,宽度学习系统通过扩展网络的宽度而非深度,实现了对信息的快速处理与学习,通过线性方程直接求解输出权重,从而提高了深度强化学习方法的实时性。
-