一种高效的强化学习的训练加速系统及方法

    公开(公告)号:CN119067185A

    公开(公告)日:2024-12-03

    申请号:CN202411097118.0

    申请日:2024-08-12

    Applicant: 北京大学

    Abstract: 本发明一种高效的强化学习的训练加速系统及方法,属于强化学习的加速领域。本发明一种强化学习的训练加速系统包括在CPU上的软件系统和在FPGA上的硬件系统;在该系统上实现的强化学习的训练加速方法,完成并行m个环境的强化学习训练过程中一个计算步step的计算包括:CPU端数据预处理,CPU端发送数据给FPGA,FPGA端对收到的数据进行缓存,FPGA端做环境的并行计算和计算结果缓存,CPU端从FPGA端读取计算结果数据,CPU端解包结果数据用于更新训练模型;该方法运用本地存储技术,流水线技术和时分复用技术使,提升了运算速度,实现了强化学习环境更新的硬件加速;采用模块化和参数化设计,通用性强;通过加速强化学习的环境更新这部分,最终加速了强化学习的训练过程。

    一种基于强化学习的数据处理系统及方法

    公开(公告)号:CN117933417A

    公开(公告)日:2024-04-26

    申请号:CN202410024035.2

    申请日:2024-01-08

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于强化学习的数据处理系统及方法,包括:模型构建模块,用于针对待处理数据进行强化学习建模,确定动作空间及其价值函数、策略类型;强化学习决策模块,用于获取强化学习模型中的各个动作及其对应的价值、策略类型以及预设精度要求,并利用硬件电路实现快速决策;输出模块,用于将决策结果输出,得到待处理数据的处理结果。本发明通过硬件实现随机策略选择,能够在硬件中并行进行保留精确度,利用率和探索度的策略选择,提升了运算速度,因此,本发明可以广泛应用于数据处理领域。

Patent Agency Ranking