一种基于对抗奖励训练的自动驾驶危险场景生成方法及系统

    公开(公告)号:CN119227521A

    公开(公告)日:2024-12-31

    申请号:CN202411261156.5

    申请日:2024-09-10

    Abstract: 本发明涉及自动驾驶测试领域领域,提供了一种基于对抗奖励训练的自动驾驶危险场景生成方法及系统,初始化多车道道路的驾驶仿真环境;基于车辆数据中的场景状态参数,随机生成惩罚动作,将场景状态参数、惩罚动作及对应的动作参数组成状态动作对,在无历史动作相似性惩罚的条件下,计算状态动作价值;通过惩罚函数对惩罚动作进行历史动作相似性惩罚,计算历史动作相似性惩罚更新后的状态动作价值;根据强化学习模型中的状态动作价值与期望状态动作价值的差值更新强化学习模型指导生成自动驾驶危险场景。本发明显著提高了自动驾驶系统测试的效率和质量,同时减少场景质量损失,并在较短的训练周期内,提升了场景的多样性和实用性。

Patent Agency Ranking