Patent search ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)") AND inv:"孟媛" Page 1

1.

发明授权
具有实时性的深度强化学习方法有权

公开(公告)号：CN119005288B

公开(公告)日：2025-05-06

申请号：CN202411024024.0

申请日：2024-07-29

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 孟媛 , 吴爱国 , 戚文念 , 张颖

IPC: G06N3/092 , G06N3/045 , G06N3/0442 , G06N3/048

Abstract: 本发明公开了一种具有实时性的深度强化学习方法，所述方法包括如下步骤：步骤1、估计决策动作的均值：Agent从任意给定的初始估计状态开始，利用宽度学习系统从最新的数据中学习状态的增量；步骤2、选择决策动作：在以宽度学习系统的输出向量为均值，以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作；步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力，宽度学习系统通过扩展网络的宽度而非深度，实现了对信息的快速处理与学习，通过线性方程直接求解输出权重，从而提高了深度强化学习方法的实时性。

2.

发明公开
具有实时性的深度强化学习方法有权

公开(公告)号：CN119005288A

公开(公告)日：2024-11-22

申请号：CN202411024024.0

申请日：2024-07-29

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 孟媛 , 吴爱国 , 戚文念 , 张颖

IPC: G06N3/092 , G06N3/045 , G06N3/0442 , G06N3/048

Abstract: 本发明公开了一种具有实时性的深度强化学习方法，所述方法包括如下步骤：步骤1、估计决策动作的均值：Agent从任意给定的初始估计状态开始，利用宽度学习系统从最新的数据中学习状态的增量；步骤2、选择决策动作：在以宽度学习系统的输出向量为均值，以双Q网络的输出值中的较小值为协方差的高斯分布策略上选择决策动作；步骤3、更新状态。本发明鉴于宽度学习系统能够快速训练并具有良好的泛化能力，宽度学习系统通过扩展网络的宽度而非深度，实现了对信息的快速处理与学习，通过线性方程直接求解输出权重，从而提高了深度强化学习方法的实时性。

Patent Agency Ranking