多智能体协同围捕方法及装置
    1.
    发明公开

    公开(公告)号:CN118036702A

    公开(公告)日:2024-05-14

    申请号:CN202410098501.1

    申请日:2024-01-23

    Abstract: 多智能体协同围捕方法及装置,涉及深度强化学习和多智能体技术领域。为解决现有技术中存在的,现有协同多智能体围捕的研究,没有考虑围捕任务的特殊性在解决围捕问题方面存在缺点的技术问题,本发明提供的技术方案为:多智能体协同围捕方法,方法包括:采集智能体逃跑策略、演员网络与中心评论员网络的观测空间、奖励函数和围捕任务完整条件的步骤;构建包括具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络的步骤;对所述演员网络和评论员网络进行预热的步骤;根据所述逃跑策略和奖励函数,更新所述演员网络和评论员网络的步骤;重复更新所述评论员网络,得到训练完成的演员网络的步骤。可以应用于多智能体协同围捕任务工作中。

    具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统

    公开(公告)号:CN118036644A

    公开(公告)日:2024-05-14

    申请号:CN202410079321.9

    申请日:2024-01-19

    Abstract: 本发明属于多智能体协同围捕领域,提供一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。步骤1:初始化环境信息,确定智能体逃跑策略,确定演员网络与中心评论员网络的观测空间,构造奖励函数,构造围捕任务完成条件;步骤2:构建MADDPG架构,其中包括一个具有时间特征提取机制的中心评论员网络以及演员网络;步骤3:智能体与环境信息交互,收集数据,进行预热;步骤4:更新神经网络参数;步骤5:重复步骤4直到完成训练回合数,最终得到训练完成的演员网络,以实现多智能体协同围捕。对于围捕任务来说,准确提取时间特征至关重要,它不仅能显著提升围捕的成功率,也是推进多智能体系统智能化水平的关键。

Patent Agency Ranking