基于多网络联合学习的驾驶行为决策方法

    公开(公告)号:CN114137967A

    公开(公告)日:2022-03-04

    申请号:CN202111392795.1

    申请日:2021-11-23

    Abstract: 本发明公开了一种基于多网络联合学习的驾驶行为决策方法,包括数据采集,数据包括状态数据及动作;数据正则化;由特征融合卷积网络提取状态特征;构建网络,其中生成对抗网络包括生成器和对抗网络,生成器采用策略网络生成样本,对抗网络用于鉴别生成器生成的样本和专家示例;隐变量估计网络估计策略网络中的隐变量,策略网络用于根据当前状态特征和隐变量生成动作;采用无监督学习和监督学习训练对抗网络和隐变量估计网络,采用策略梯度算法训练策略网络;当前在线数据经过训练后的策略网络,实现驾驶行为决策。本发明采用人工智能的方法,即不需要给智能体规定特定场景,也无需给出智能体的条件规则库就可以自动学习行为策略,具有更为广泛的应用性。

    一种基于双层融合模型的无人驾驶行为预测方法

    公开(公告)号:CN111178584A

    公开(公告)日:2020-05-19

    申请号:CN201911225102.2

    申请日:2019-12-04

    Abstract: 本发明公开了一种基于双层融合模型的无人驾驶行为预测方法,包括步骤1、数据采集系统获取当前汽车的驾驶记录数据,所述驾驶记录数据包括当前汽车行驶的状态与汽车过去行驶的数据记录;步骤2、对数据采集系统获取的数据进行处理,以符合训练驾驶行为预测模型的输入要求;步骤3、数据处理的结果输入驾驶行为预测模型,在改进后的VGG-LSTM和FCN-LSTM双任务网络架构上对图片进行训练;步骤4、车辆下一行为预测,根据车辆过去时刻的运动状态和所述驾驶行为预测模型训练的结果输出汽车在下一时刻的运动状态。本发明既不需要给无人驾驶汽车规定特定场景,也无需给出汽车驾驶的条件规则库,在给定汽车过去时刻运动状态的前提下实现下一时刻的行为预测。

    基于生成对抗网络和策略梯度的心电信号去噪方法

    公开(公告)号:CN111067507A

    公开(公告)日:2020-04-28

    申请号:CN201911362882.5

    申请日:2019-12-26

    Abstract: 本发明公开了一种基于生成对抗网络和策略梯度的心电信号去噪方法,包括对测试集中每条心电信号段中的所有样本点进行最大最小归一化;构建生成器和判别器构成的生成对抗网络,生成器建模为一个随机策略,同时也是一个行动者;将判别器建模为评论家,其角色是对生成器输出的样本进行打分;采用梯度下降训练生成器和判别器;设定训练信噪比提升阈值,当信噪比提升值大于训练信噪比提升阈值时停止训练;输出去噪信号。本发明采用强化学习中的策略梯度方法对生成对抗网络进行了优化,分别训练生成器和判别器达到纳什均衡点,此时得到了最好的去噪效果。

    一种基于近似模型规划的室内空气自适应控制方法

    公开(公告)号:CN108549232B

    公开(公告)日:2019-11-08

    申请号:CN201810430729.0

    申请日:2018-05-08

    Abstract: 本发明公开了一种基于近似模型规划的室内空气自适应控制方法,包括初始化当前状态、模型、超参数、环境和探索策略,根据探索策略选择动作执行,从而获得奖赏和下一状态,将当前状态、动作、奖赏和下一状态组成当前样本以更新模型、值函数和策略;在每个情节结束后将当前采样轨迹和重构的采样轨迹都加入轨迹池中,然后利用轨迹池中所有轨迹来更新模型;利用更新的模型产生模拟样本进行规划;当算法达到最大情节数并收敛时,就可以得到实现室内空气自适应控制的最优策略。本发明通过学习一个近似的环境模型,并利用学习的环境模型来进行规划,从而提高学习的效率。

    一种基于近似模型规划的室内空气自适应控制方法

    公开(公告)号:CN108549232A

    公开(公告)日:2018-09-18

    申请号:CN201810430729.0

    申请日:2018-05-08

    Abstract: 本发明公开了一种基于近似模型规划的室内空气自适应控制方法,包括初始化当前状态、模型、超参数、环境和探索策略,根据探索策略选择动作执行,从而获得奖赏和下一状态,将当前状态、动作、奖赏和下一状态组成当前样本以更新模型、值函数和策略;在每个情节结束后将当前采样轨迹和重构的采样轨迹都加入轨迹池中,然后利用轨迹池中所有轨迹来更新模型;利用更新的模型产生模拟样本进行规划;当算法达到最大情节数并收敛时,就可以得到实现室内空气自适应控制的最优策略。本发明通过学习一个近似的环境模型,并利用学习的环境模型来进行规划,从而提高学习的效率。

Patent Agency Ranking