一种智能体最优策略获取方法及装置

    公开(公告)号:CN113128705B

    公开(公告)日:2024-02-09

    申请号:CN202110314960.5

    申请日:2021-03-24

    Abstract: 性和鲁棒性。本发明公开了一种智能体最优策略获取方法及装置,该方法包括:将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;利用卡尔曼滤波算法,从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;根据各智能体对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。本发明解决了不平稳

    一种基于深度蒙特卡洛树搜索的信源导航方法及装置

    公开(公告)号:CN113139644A

    公开(公告)日:2021-07-20

    申请号:CN202110316103.9

    申请日:2021-03-24

    Abstract: 本发明公开了一种基于深度蒙特卡洛树搜索的信源导航方法及装置,该方法包括:获取待导航智能体在历史时间步内的环境信息和执行的动作信息;通过预设的第一神经网络,基于历史时间步内的环境信息和动作信息,预测出智能体在当前时间步的各个方向的动作概率;以预测的动作概率作为蒙特卡洛树搜索算法的先验知识,选择智能体在当前时间步内的最佳执行动作;结合每一时间步的最佳执行动作,得到智能体移动至信源的最优路径。本发明提出在蒙特卡洛树中使用循环神经网络的集成规划路径框架,帮助提高导航控制的稳定性和性能,通过对时间动作序列数据的处理,解决连续空间中的路径规划问题。

    一种智能体最优策略获取方法及装置

    公开(公告)号:CN113128705A

    公开(公告)日:2021-07-16

    申请号:CN202110314960.5

    申请日:2021-03-24

    Abstract: 本发明公开了一种智能体最优策略获取方法及装置,该方法包括:将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;利用卡尔曼滤波算法,从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;根据各智能体对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。本发明解决了不平稳环境下的多智能体系统信用分配问题,能提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。

Patent Agency Ranking