-
公开(公告)号:CN113239472B
公开(公告)日:2021-09-21
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN113239472A
公开(公告)日:2021-08-10
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN118171554B
公开(公告)日:2025-03-21
申请号:CN202311865592.9
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06F30/27 , G06F30/15 , G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种自动驾驶决策模型训练方法、装置及存储介质,该方法包括:获取初始自动驾驶主车模型与环境车之间的交互数据,初始自动驾驶主车模型包括初始具身世界模型和初始行为模型;将交互数据作为训练样本,使得初始具身世界模型基于训练样本分别对各类环境车进行建模;基于建模结果和初始行为模型想象初始自动驾驶主车模型对应自动驾驶车的驾驶轨迹,并基于驾驶轨迹对初始行为模型进行训练;在当前训练达到预设终止条件的情况下终止训练,得到自动驾驶决策模型;环境车的类型是基于环境车与自动驾驶车之间的交互距离进行划分,各类环境车建模方式不同。本申请提供的方法和装置,提高了模型的训练效率、决策效率和决策准确度。
-
公开(公告)号:CN119580029A
公开(公告)日:2025-03-07
申请号:CN202411601987.2
申请日:2024-11-11
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06N3/008 , G06N3/045 , G06V10/764
Abstract: 本公开涉及一种基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品,单智能体强化学习模型单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,辅助任务网络包括状态预测模型,根据目标智能体当前时间段基于针对目标智能体的观测图像而得到的状态信息和动作信息,以及当前时间段的奖赏信息,通过辅助任务网络从视觉表征的角度出发,学习目标智能体的状态表征和动作表征,通过强化学习网络为目标智能体选择最佳决策动作,并且,充分利用强化学习中时间段的时序信息,可以实现单智能体在具有挑战的以图像作为状态输入的复杂连续控制任务中的性能和样本效率提升。
-
公开(公告)号:CN119206705A
公开(公告)日:2024-12-27
申请号:CN202411291159.3
申请日:2024-09-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种自动驾驶场景的3D密集标注方法,可以应用于大数据以及人工智能技术领域。该方法包括:基于多视角图像和雷达点云数据提取鸟瞰图特征;通过检测头识别并定位场景内的3D物体,确保对物体特征的准确捕捉;采用Relation Q‑former技术交互BEV特征和3D物体特征,以获取各物体与场景上下文的深入关系,从而增强对场景的全面理解;基于适配器技术,避免对现有大模型的重新训练,将上述得到的特征转换为语言模型的提示词prompt输入,生成3D物体描述。训练结束后,3D密集标注模型能够根据给定的场景图片自动进行3D物体定位与描述。本发明通过结合多源数据融合、上下文关系分析和适配器技术,显著提升了自动驾驶室外场景下3D物体标注的效率和准确性。
-
公开(公告)号:CN118171554A
公开(公告)日:2024-06-11
申请号:CN202311865592.9
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06F30/27 , G06F30/15 , G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种自动驾驶决策模型训练方法、装置及存储介质,该方法包括:获取初始自动驾驶主车模型与环境车之间的交互数据,初始自动驾驶主车模型包括初始具身世界模型和初始行为模型;将交互数据作为训练样本,使得初始具身世界模型基于训练样本分别对各类环境车进行建模;基于建模结果和初始行为模型想象初始自动驾驶主车模型对应自动驾驶车的驾驶轨迹,并基于驾驶轨迹对初始行为模型进行训练;在当前训练达到预设终止条件的情况下终止训练,得到自动驾驶决策模型;环境车的类型是基于环境车与自动驾驶车之间的交互距离进行划分,各类环境车建模方式不同。本申请提供的方法和装置,提高了模型的训练效率、决策效率和决策准确度。
-
公开(公告)号:CN109245196B
公开(公告)日:2020-06-30
申请号:CN201810967603.7
申请日:2018-08-23
Applicant: 中国科学院自动化研究所 , 中国电力科学研究院有限公司 , 国网江苏省电力有限公司电力科学研究院
Abstract: 本发明涉及一种多电池储能系统的优化控制方法、系统及存储介质,本发明的方法与单电池管理系统不同,多个电池的不同属性被考虑进来,以整个系统的长期优化指标作为优化目标,此外,价值函数被定义为关于所有电池状态的模糊系统,根据电池动力学特性计算模糊系统的参数,电池的充放电动作考虑各个电池的容量和功率约束,整个优化过程是在受限的动作空间完成的。这样得到的最优动作一方面有助于延长电池寿命,另一方面保证了最优的性能指标。
-
公开(公告)号:CN110888322A
公开(公告)日:2020-03-17
申请号:CN201911110197.3
申请日:2019-11-14
Applicant: 中国科学院自动化研究所
IPC: G05B13/04
Abstract: 本发明属于智能驾驶技术领域,具体涉及了一种基于加速度前馈的异构车队协同自适应巡航控制方法,旨在解决现有的协同自适应巡航控制方法依赖开发人员的专业经验,设计难度大的问题。本发明方法包括:建立被控车辆纵向动力学模型,定义跟车策略;获取被控车辆与前车的传递函数,并分析车队频域弦稳定条件;建立被控车队的状态空间模型;确定被控车队时域弦稳定条件;基于预设车辆间隔时间参数,获取前馈控制参数和反馈控制参数进行车辆巡航控制。本发明方法方便使用计算工具求解问题的可行解,降低了设计难度;获取最小间隔时间参数,从而获得具有最好跟随性能的协同自适应巡航控制器,提高了整个车队的通行能力。
-
公开(公告)号:CN110304045A
公开(公告)日:2019-10-08
申请号:CN201910552495.1
申请日:2019-06-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于智能驾驶领域,具体涉及一种智能驾驶横向换道决策方法,旨在为了解决现有决策方法对未知情况的泛化能力和对异常情况的抗干扰能力较差的问题。本发明采集目标车辆及相邻车辆的速度信息和位置信息,转化为环境表征;通过基于深度强化学习算法构建的高层决策模型获取高层横向驾驶决策动作;基于环境信息和高层横向驾驶决策动作,通过基于规则的低层校正器校正高层横向驾驶决策动作,获取目标车辆最终的横向驾驶决策动作。本发明在基于学习的方法的基础上,加入规则的限制,相比于规则的方法提高了泛化能力,相比于学习的方法提高了对异常情况的抗干扰能力,提高了稳定性,可实现高速路场景下安全、稳定的车辆自主横向换道决策。
-
公开(公告)号:CN107609483A
公开(公告)日:2018-01-19
申请号:CN201710696755.3
申请日:2017-08-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及智能驾驶领域,具体提出了一种面向驾驶辅助系统的危险目标检测方法、装置,旨在解决现场复杂交通场景下危险目标检测精度低的问题。为此目的,本发明中的危险目标检测方法,通过依据预设的危险目标检测模型,识别所获取的车体外部图像中的危险目标的检测框位置以及目标类别和距离类别的笛卡尔积;依据笛卡尔积和危险等级匹配表,获取目标的危险等级;依据危险等级对应的颜色标注图像中目标的检测框。同时本发明中的危险目标检测装置、存储及处理装置,可以执行上述危险目标检测方法中的各步骤。本发明中的技术方案,可以在现实复杂交通场景下,提升基于图像的危险目标检测的精准度,有预防交通事故的作用。
-
-
-
-
-
-
-
-
-