Patent search ap:("北京大学") AND inv:"李嘉怡" Page 1

1.

发明公开
一种高效的强化学习的训练加速系统及方法审中-实审

公开(公告)号：CN119067185A

公开(公告)日：2024-12-03

申请号：CN202411097118.0

申请日：2024-08-12

Applicant: 北京大学

Inventor： 燕博南 , 李嘉怡 , 金玉丰 , 杨玉超 , 黄如

IPC: G06N3/063 , G06N3/092 , G06N3/006 , G06F15/17 , G06F15/78 , G06F9/30 , G06F9/38

Abstract: 本发明一种高效的强化学习的训练加速系统及方法，属于强化学习的加速领域。本发明一种强化学习的训练加速系统包括在CPU上的软件系统和在FPGA上的硬件系统；在该系统上实现的强化学习的训练加速方法，完成并行m个环境的强化学习训练过程中一个计算步step的计算包括：CPU端数据预处理，CPU端发送数据给FPGA，FPGA端对收到的数据进行缓存，FPGA端做环境的并行计算和计算结果缓存，CPU端从FPGA端读取计算结果数据，CPU端解包结果数据用于更新训练模型；该方法运用本地存储技术，流水线技术和时分复用技术使，提升了运算速度，实现了强化学习环境更新的硬件加速；采用模块化和参数化设计，通用性强；通过加速强化学习的环境更新这部分，最终加速了强化学习的训练过程。

2.

发明公开
一种基于强化学习的数据处理系统及方法审中-实审

公开(公告)号：CN117933417A

公开(公告)日：2024-04-26

申请号：CN202410024035.2

申请日：2024-01-08

Applicant: 北京大学

Inventor： 燕博南 , 李嘉怡 , 金玉丰 , 杨玉超 , 黄如

IPC: G06N20/00 , G06N3/092 , G06N3/008

Abstract: 本发明涉及一种基于强化学习的数据处理系统及方法，包括：模型构建模块，用于针对待处理数据进行强化学习建模，确定动作空间及其价值函数、策略类型；强化学习决策模块，用于获取强化学习模型中的各个动作及其对应的价值、策略类型以及预设精度要求，并利用硬件电路实现快速决策；输出模块，用于将决策结果输出，得到待处理数据的处理结果。本发明通过硬件实现随机策略选择，能够在硬件中并行进行保留精确度，利用率和探索度的策略选择，提升了运算速度，因此，本发明可以广泛应用于数据处理领域。

Patent Agency Ranking