-
公开(公告)号:CN116394968A
公开(公告)日:2023-07-07
申请号:CN202211546947.3
申请日:2022-12-05
Applicant: 北京理工大学
IPC: B60W60/00 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/092 , B60W50/00 , B60W40/08
Abstract: 本发明涉及一种基于多智能体强化学习的自动驾驶车辆控制方法,属于人工智能和自动驾驶技术领域。针对自动驾驶车辆场景,本方法提出了一个用于AVs的多智能体自适应决策框架。首先考虑乘客的个性化需求,为AVs制定不同的驾驶风格,用于后续决策建模过程中。利用联盟博弈和V2V通信,以每个网联自动驾驶车辆CAV为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现CAV在合作区域里的运动决策。在完全自动驾驶车辆的场景下,本发明不仅能够保证在高速主干车道上的安全性和效率,而且对于匝道合流区域的安全性、舒适度和效率也能够得到保障。
-
公开(公告)号:CN102078678A
公开(公告)日:2011-06-01
申请号:CN201110021987.1
申请日:2011-01-19
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于磁粉制动器的上肢康复装置,属于肢体康复领域。包括机箱(1),控制箱(2),调节主箱(3),显示器支架(4),机械臂(5),显示器(6)和装置底座(7);显示器支架(4)和装置底座(7)通过紧固螺钉(9)连接,调节主箱(3)和装置底座(7)通过紧固螺钉(8)连接;本发明在原基础上增加了调节平台角度的结构,而且也同时保留了调节平台高度的功能,这样也使康复设备适用的人群更广,也更方便不同患者的使用,由于采用磁粉制动器,有效隔离了患者和康复装置之间的相互作用,克服了以前装置的危险性,使患者的训练过程更加安全。
-
公开(公告)号:CN114626505B
公开(公告)日:2025-01-07
申请号:CN202210207885.7
申请日:2022-03-04
Applicant: 北京理工大学
Abstract: 本发明涉及一种移动机器人深度强化学习控制方法,属于机器人智能控制技术领域。在机器人学习行为策略阶段,本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法,用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率,从而提高了学习速度和采样效率,节省了机器人与环境的交互成本。同时,在对机器人的行为策略模型进行评估阶段,本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数,通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数,该评价网络具有学习速度快、能够减小参数累积误差的优势。
-
公开(公告)号:CN115618738A
公开(公告)日:2023-01-17
申请号:CN202211340151.2
申请日:2022-10-28
Applicant: 北京理工大学
IPC: G06F30/27 , G06F119/02
Abstract: 本发明涉及一种基于两方博弈的无人系统主动目标监控方法,属于人工智能与目标监控技术领域。本方法充分考虑了目标监控任务中的目标运动的不确定性和对抗性,以及长时间监控中的监控能力,基于两方博弈构建了两个独立智能体交互过程,将整个监控过程分为监控阶段和搜索阶段,分别设计奖励函数。通过提升目标策略的多样性,实现监控者的奖励提升,从而延长监控过程的持续时间,减少搜索过程时间,提升了监控者在长时间监控任务中的监控性能。
-
公开(公告)号:CN115542945A
公开(公告)日:2022-12-30
申请号:CN202211331938.2
申请日:2022-10-28
Applicant: 北京理工大学
IPC: G05D1/10
Abstract: 本发明涉及一种自适应调整范围的无人机群目标三维持续监控方法,属于无人机目标监控技术领域。本方法针对基于视觉检测的单无人机群目标三维持续监控问题,利用了有权图结构对群目标进行建模,在水平方向上,通过寻找中心位置进行飞行决策,在高度方向上,利用离线数据集结合离线强化学习算法,在考无人机虑能耗及视觉系准确率的情况下,实现自适应飞行高度决策。本方法能够自适应的调整无人机的检测范围,有效提升了单个无人机的监控性能。
-
公开(公告)号:CN102499853B
公开(公告)日:2013-09-11
申请号:CN201110365004.6
申请日:2011-11-17
Applicant: 北京理工大学
Abstract: 本发明属于医疗器械技术领域,涉及一种康复训练系统,特别涉及一种拥有主被动模式的上肢康复训练系统。其技术方案是:一种拥有主被动模式的上肢康复训练系统,包括:手柄,机械臂,主轴,编码器,计算机,显示器,电机,离合器,联轴器,带轮,带轮轴,同步齿形带,康复装置底座。本发明相对以往设备,提供了对康复患者的主动作用力,使机械臂可以带动患者手臂做主动模式的康复训练,以达到更好的康复训练效果,并在计算机内部设有阈值安全模块,可增强患者康复训练的安全性。
-
公开(公告)号:CN102078678B
公开(公告)日:2012-05-23
申请号:CN201110021987.1
申请日:2011-01-19
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于磁粉制动器的上肢康复装置,属于肢体康复领域。包括机箱(1),控制箱(2),调节主箱(3),显示器支架(4),机械臂(5),显示器(6)和装置底座(7);显示器支架(4)和装置底座(7)通过紧固螺钉(9)连接,调节主箱(3)和装置底座(7)通过紧固螺钉(8)连接;本发明在原基础上增加了调节平台角度的结构,而且也同时保留了调节平台高度的功能,这样也使康复设备适用的人群更广,也更方便不同患者的使用,由于采用磁粉制动器,有效隔离了患者和康复装置之间的相互作用,克服了以前装置的危险性,使患者的训练过程更加安全。
-
公开(公告)号:CN114626505A
公开(公告)日:2022-06-14
申请号:CN202210207885.7
申请日:2022-03-04
Applicant: 北京理工大学
Abstract: 本发明涉及一种移动机器人深度强化学习控制方法,属于机器人智能控制技术领域。在机器人学习行为策略阶段,本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法,用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率,从而提高了学习速度和采样效率,节省了机器人与环境的交互成本。同时,在对机器人的行为策略模型进行评估阶段,本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数,通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数,该评价网络具有学习速度快、能够减小参数累积误差的优势。
-
公开(公告)号:CN115657477A
公开(公告)日:2023-01-31
申请号:CN202211253192.8
申请日:2022-10-13
Applicant: 北京理工大学
IPC: G05B13/04
Abstract: 本发明涉及一种基于离线强化学习的动态环境机器人自适应控制方法,属于机器人智能控制技术领域。在机器人行为策略学习阶段,提出一种历史行为重用策略提升的离线强化学习机器人控制方法,使机器人能够利用存在大量噪声的专家数据集进行行为学习,提高了学习速度和和样本利用率,在机器人的智能控制中节省了机器人与环境的交互成本。在对机器人的策略进行评估阶段,提出了一种稳定的策略评估方法,能够对机器人的行为策略进行有效评价。
-
公开(公告)号:CN102499853A
公开(公告)日:2012-06-20
申请号:CN201110365004.6
申请日:2011-11-17
Applicant: 北京理工大学
Abstract: 本发明属于医疗器械技术领域,涉及一种康复训练系统,特别涉及一种拥有主被动模式的上肢康复训练系统。其技术方案是:一种拥有主被动模式的上肢康复训练系统,包括:手柄,机械臂,主轴,编码器,计算机,显示器,电机,离合器,联轴器,带轮,带轮轴,同步齿形带,康复装置底座。本发明相对以往设备,提供了对康复患者的主动作用力,使机械臂可以带动患者手臂做主动模式的康复训练,以达到更好的康复训练效果,并在计算机内部设有阈值安全模块,可增强患者康复训练的安全性。
-
-
-
-
-
-
-
-
-