-
公开(公告)号:CN113837348B
公开(公告)日:2024-12-10
申请号:CN202110858503.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822
Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能避免变化环境中智能体数量动态变化对多智能体控制及训练过程的影响。
-
公开(公告)号:CN113239472B
公开(公告)日:2021-09-21
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN113239472A
公开(公告)日:2021-08-10
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN110888322B
公开(公告)日:2021-04-13
申请号:CN201911110197.3
申请日:2019-11-14
Applicant: 中国科学院自动化研究所
IPC: G05B13/04
Abstract: 本发明属于智能驾驶技术领域,具体涉及了一种基于加速度前馈的异构车队协同自适应巡航控制方法,旨在解决现有的协同自适应巡航控制方法依赖开发人员的专业经验,设计难度大的问题。本发明方法包括:建立被控车辆纵向动力学模型,定义跟车策略;获取被控车辆与前车的传递函数,并分析车队频域弦稳定条件;建立被控车队的状态空间模型;确定被控车队时域弦稳定条件;基于预设车辆间隔时间参数,获取前馈控制参数和反馈控制参数进行车辆巡航控制。本发明方法方便使用计算工具求解问题的可行解,降低了设计难度;获取最小间隔时间参数,从而获得具有最好跟随性能的协同自适应巡航控制器,提高了整个车队的通行能力。
-
公开(公告)号:CN107609483B
公开(公告)日:2020-06-16
申请号:CN201710696755.3
申请日:2017-08-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及智能驾驶领域,具体提出了一种面向驾驶辅助系统的危险目标检测方法、装置,旨在解决现场复杂交通场景下危险目标检测精度低的问题。为此目的,本发明中的危险目标检测方法,通过依据预设的危险目标检测模型,识别所获取的车体外部图像中的危险目标的检测框位置以及目标类别和距离类别的笛卡尔积;依据笛卡尔积和危险等级匹配表,获取目标的危险等级;依据危险等级对应的颜色标注图像中目标的检测框。同时本发明中的危险目标检测装置、存储及处理装置,可以执行上述危险目标检测方法中的各步骤。本发明中的技术方案,可以在现实复杂交通场景下,提升基于图像的危险目标检测的精准度,有预防交通事故的作用。
-
公开(公告)号:CN111105034A
公开(公告)日:2020-05-05
申请号:CN201911343902.4
申请日:2019-12-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于学习算法领域,具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统,旨在为了解决解决多智能体信誉分配问题。本发明方法包括:基于多智能体的运行环境,定义全局状态;基于局部观测量,通过预设的Q网络模型,获取各智能体对应的执行动作;获取各智能体对应的经验数据对,并增入经验池;从经验回放池中随机获取训练样本,训练并更新Q网络模型的权重;每隔设定的步长,将基于Q网络模型的权重更新目标Q网络模型;重复上述Q网络模型权重优化步骤,直至达到训练结束条件,获取最后一次权重更新的Q网络模型。本发明实现了完全合作多智能体间的信誉分配,进而实现了多智能体的协同决策,而且收敛快,效率高。
-
公开(公告)号:CN107016193B
公开(公告)日:2020-02-14
申请号:CN201710226893.5
申请日:2017-04-06
Applicant: 中国科学院自动化研究所
IPC: G06F30/20
Abstract: 本发明涉及一种驾驶员跟车行为分析中的期望跟车距离计算方法。基于驾驶员在环汽车仿真测试平台,在采集数据时,设计多种不同的驾驶场景,针对多个驾驶员进行驾驶数据的采集;从中提取每个驾驶员的跟车行为特征参数数据集;对所有驾驶员的特征行为参数数据集进行聚类,聚类为几种不同的驾驶类别,作为训练数据集;然后利用上述训练数据集,对待分类的当前驾驶员进行类别判断。既实现了对不同跟车行为进行分类,又提高了采集跟车行为数据的效率,而且成本低、安全性好。本发明还利用高斯过程模拟驾驶员的纵向驾驶行为,能够为当前驾驶员提供个性化的期望跟车距离,提升了辅助驾驶系统对不同驾驶员的主动适应能力。
-
公开(公告)号:CN109466552A
公开(公告)日:2019-03-15
申请号:CN201811260601.0
申请日:2018-10-26
Applicant: 中国科学院自动化研究所
IPC: B60W30/12
Abstract: 本发明涉及一种智能驾驶车道保持方法及系统,所述智能驾驶车道保持方法包括:获取驾驶员视角的当前前方图像;基于预设的驾驶图像感知模型,预测所述当前前方图像的车道特征;基于预设的数据驱动车道保持模型,根据所述车道特征,计算方向盘转角控制量;根据所述方向盘转角控制量,控制本车行驶在车道中央。本发明通过采用多任务学习网络构建所述驾驶图像感知模型,促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征,可提高车道特征预测的准确率;在方向盘转角控制量计算中,采用数据驱动的方法,不依赖于车辆模型,可提高方向盘转角控制量计算的准确性与鲁棒性。
-
公开(公告)号:CN103702349B
公开(公告)日:2017-03-01
申请号:CN201310739109.2
申请日:2013-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提出一种基于新的稀疏强化学习的传感器网络优化方法,包括:步骤1,将传感器网络中的传感器划分为多个传感器基团;步骤2,将所述传感器网络中表示所有传感器控制策略的全局Q值函数分解为表示各个传感器基团中传感器控制策略的Q值函数之和,并获取与分解后的Q值函数对应的因子图;步骤3,计算当前状态下所有传感器的贪婪联合动作;步骤4,各个传感器执行所述贪婪联合动作或随机动作,并更新每个传感器基团的Q值函数;步骤5,重复步骤3~4,直至传感器基团的Q值函数收敛;步骤6,根据学习得到的传感器基团的Q值函数和当前目标所处的状态,使用一般最大和算法计算获得所有传感器的贪婪联合动作,供每个传感器执行。
-
公开(公告)号:CN103702349A
公开(公告)日:2014-04-02
申请号:CN201310739109.2
申请日:2013-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提出一种基于新的稀疏强化学习的传感器网络优化方法,包括:步骤1,将传感器网络中的传感器划分为多个传感器基团;步骤2,将所述传感器网络中表示所有传感器控制策略的全局Q值函数分解为表示各个传感器基团中传感器控制策略的Q值函数之和,并获取与分解后的Q值函数对应的因子图;步骤3,计算当前状态下所有传感器的贪婪联合动作;步骤4,各个传感器执行所述贪婪联合动作或随机动作,并更新每个传感器基团的Q值函数;步骤5,重复步骤3~4,直至传感器基团的Q值函数收敛;步骤6,根据学习得到的传感器基团的Q值函数和当前目标所处的状态,使用一般最大和算法计算获得所有传感器的贪婪联合动作,供每个传感器执行。
-
-
-
-
-
-
-
-
-