基于加速度前馈的异构车队协同自适应巡航控制方法

    公开(公告)号:CN110888322A

    公开(公告)日:2020-03-17

    申请号:CN201911110197.3

    申请日:2019-11-14

    Inventor: 朱圆恒 赵冬斌

    Abstract: 本发明属于智能驾驶技术领域,具体涉及了一种基于加速度前馈的异构车队协同自适应巡航控制方法,旨在解决现有的协同自适应巡航控制方法依赖开发人员的专业经验,设计难度大的问题。本发明方法包括:建立被控车辆纵向动力学模型,定义跟车策略;获取被控车辆与前车的传递函数,并分析车队频域弦稳定条件;建立被控车队的状态空间模型;确定被控车队时域弦稳定条件;基于预设车辆间隔时间参数,获取前馈控制参数和反馈控制参数进行车辆巡航控制。本发明方法方便使用计算工具求解问题的可行解,降低了设计难度;获取最小间隔时间参数,从而获得具有最好跟随性能的协同自适应巡航控制器,提高了整个车队的通行能力。

    基于数据的Q函数自适应动态规划方法

    公开(公告)号:CN103217899B

    公开(公告)日:2016-05-18

    申请号:CN201310036976.X

    申请日:2013-01-30

    Abstract: 本发明提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题。所述方法主要包括:步骤1,初始化稳定的控制策略;步骤2,用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重;步骤3,根据当前控制策略和当前时刻系统状态,生成被控制系统的控制动作并施加到被控制对象上,观测下一时刻的系统状态;步骤4,调整控制器、评价器神经网络的权重;步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则回到步骤3;步骤6,判断最近两个迭代周期产生的神经网络权重是否有明显变化,是则用新产生的控制器、评价器神经网络进入步骤2,否则输出最终的控制器神经网络控制器。

    离线强化学习训练方法、动作预测方法、装置及介质

    公开(公告)号:CN118153658B

    公开(公告)日:2025-01-07

    申请号:CN202410219901.3

    申请日:2024-02-28

    Abstract: 本申请公开了一种离线强化学习训练方法、动作预测方法、装置及介质,其中方法包括:获取待训练模型控制的机器人的第一静态数据集;第一静态数据集包括机器人的多条历史运行轨迹;待训练模型的网络包括价值函数网络、扩散模型网络和逆动力学网络;基于第一静态数据集对价值函数网络进行训练;基于训练后的价值函数网络生成历史运行轨迹的各个轨迹片段对应的性能标签;基于各个轨迹片段,以及各个性能标签对扩散模型网络和逆动力学网络进行训练。本申请提供的方法和装置,提高了扩散模型的学习准确度,提高了待训练模型的训练效率和预测准确度。

    基于强化学习的变化环境多智能体控制方法与装置

    公开(公告)号:CN113837348B

    公开(公告)日:2024-12-10

    申请号:CN202110858503.2

    申请日:2021-07-28

    Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能避免变化环境中智能体数量动态变化对多智能体控制及训练过程的影响。

    一种基于强化学习的导弹制导方法和装置

    公开(公告)号:CN113239472B

    公开(公告)日:2021-09-21

    申请号:CN202110775732.8

    申请日:2021-07-09

    Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

    一种基于强化学习的导弹制导方法和装置

    公开(公告)号:CN113239472A

    公开(公告)日:2021-08-10

    申请号:CN202110775732.8

    申请日:2021-07-09

    Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

    基于加速度前馈的异构车队协同自适应巡航控制方法

    公开(公告)号:CN110888322B

    公开(公告)日:2021-04-13

    申请号:CN201911110197.3

    申请日:2019-11-14

    Inventor: 朱圆恒 赵冬斌

    Abstract: 本发明属于智能驾驶技术领域,具体涉及了一种基于加速度前馈的异构车队协同自适应巡航控制方法,旨在解决现有的协同自适应巡航控制方法依赖开发人员的专业经验,设计难度大的问题。本发明方法包括:建立被控车辆纵向动力学模型,定义跟车策略;获取被控车辆与前车的传递函数,并分析车队频域弦稳定条件;建立被控车队的状态空间模型;确定被控车队时域弦稳定条件;基于预设车辆间隔时间参数,获取前馈控制参数和反馈控制参数进行车辆巡航控制。本发明方法方便使用计算工具求解问题的可行解,降低了设计难度;获取最小间隔时间参数,从而获得具有最好跟随性能的协同自适应巡航控制器,提高了整个车队的通行能力。

    基于反事实回报的多智能体深度强化学习方法、系统

    公开(公告)号:CN111105034A

    公开(公告)日:2020-05-05

    申请号:CN201911343902.4

    申请日:2019-12-24

    Abstract: 本发明属于学习算法领域,具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统,旨在为了解决解决多智能体信誉分配问题。本发明方法包括:基于多智能体的运行环境,定义全局状态;基于局部观测量,通过预设的Q网络模型,获取各智能体对应的执行动作;获取各智能体对应的经验数据对,并增入经验池;从经验回放池中随机获取训练样本,训练并更新Q网络模型的权重;每隔设定的步长,将基于Q网络模型的权重更新目标Q网络模型;重复上述Q网络模型权重优化步骤,直至达到训练结束条件,获取最后一次权重更新的Q网络模型。本发明实现了完全合作多智能体间的信誉分配,进而实现了多智能体的协同决策,而且收敛快,效率高。

    智能驾驶车道保持方法及系统

    公开(公告)号:CN109466552A

    公开(公告)日:2019-03-15

    申请号:CN201811260601.0

    申请日:2018-10-26

    Abstract: 本发明涉及一种智能驾驶车道保持方法及系统,所述智能驾驶车道保持方法包括:获取驾驶员视角的当前前方图像;基于预设的驾驶图像感知模型,预测所述当前前方图像的车道特征;基于预设的数据驱动车道保持模型,根据所述车道特征,计算方向盘转角控制量;根据所述方向盘转角控制量,控制本车行驶在车道中央。本发明通过采用多任务学习网络构建所述驾驶图像感知模型,促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征,可提高车道特征预测的准确率;在方向盘转角控制量计算中,采用数据驱动的方法,不依赖于车辆模型,可提高方向盘转角控制量计算的准确性与鲁棒性。

Patent Agency Ranking