-
公开(公告)号:CN114611664A
公开(公告)日:2022-06-10
申请号:CN202210171628.2
申请日:2022-02-24
Applicant: 中国科学院自动化研究所
IPC: G06N3/04 , G06N3/08 , A63F13/67 , A63F13/803 , A63F13/822 , A63F13/837
Abstract: 本申请实施例涉及人工智能领域,公开了一种多智能体学习方法、装置及设备。本申请实施例涉及的多智能体学习方法包括:部署至少两个执行网络用于为智能体提供动作执行环境,每个执行网络对应一个智能体,基于智能体当前的状态特征调用执行网络得到对应的动作结果,并且,调用所有智能体的动作结果并与环境进行交互训练,检测交互训练的次数是否等于预设阈值,当各个智能体的交互训练次数等于预设阈值时,基于交互训练产生的训练结果对全部所述智能体进行训练。这样,在学习过程中,随着智能体数量增加,只需对分布执行网络进行扩展,智能体动作空间不会变的复杂,此降低了每个智能体动作空间以及决策空间的设计难度,提升了智能体的学习效率。
-
公开(公告)号:CN114511086A
公开(公告)日:2022-05-17
申请号:CN202210138348.1
申请日:2022-02-15
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06N3/02 , A63F13/822
Abstract: 本发明公开了一种策略生成方法、装置及设备,其中,所述方法包括:选择预设的主策略风格对应的虚拟对象与对战方对战;预测所述对战方的对战策略风格,其中,所述对战策略风格为预设的至少三种策略风格中的一种,所述至少三种策略风格包括所述主策略风格和至少两种非主策略风格,所述至少三种策略风格两两之间存在克制关系;选择策略风格克制所述对战策略风格的虚拟对象与对战方对战;若未触发博弈结束规则,重复执行所述预测对战方的对战策略风格,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战的步骤;若触发预设博弈结束规则,则博弈结束。通过上述方式,本发明增加了博弈的胜率。
-