一种多Agent深度强化学习算法
    1.
    发明公开

    公开(公告)号:CN113902087A

    公开(公告)日:2022-01-07

    申请号:CN202111240522.5

    申请日:2021-10-25

    Abstract: 本发明公开了一种多Agent深度强化学习算法,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。本发明通过在分布式执行之前加入集中式预判分配权重,增强了智能体群体之间的决策通信,提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。

    基于多Agent环境的深度强化学习算法、设备和存储介质

    公开(公告)号:CN115392438B

    公开(公告)日:2023-07-07

    申请号:CN202211114004.3

    申请日:2022-09-14

    Abstract: 本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。

    基于多Agent环境的深度强化学习算法、设备和存储介质

    公开(公告)号:CN115392438A

    公开(公告)日:2022-11-25

    申请号:CN202211114004.3

    申请日:2022-09-14

    Abstract: 本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。

Patent Agency Ranking