-
公开(公告)号:CN119250161A
公开(公告)日:2025-01-03
申请号:CN202411778280.9
申请日:2024-12-05
Applicant: 西北工业大学
Abstract: 为解决当前追逃博弈智能决策中使用深度强化学习算法得到的神经网络可解释性和可调试性差,难以满足实际部署要求的问题,本发明提出一种基于模糊推理树的深度强化学习策略迁移方法。本发明以经过充分训练的待迁移网络为指导,通过智能优化算法对模糊推理树进行训练使其与训练好的待迁移网络在相同的输入下具有相同的输出,即使得模糊推理树学习到了状态到动作的映射关系,具有与深度强化学习的待迁移网络相同的决策能力,从而达到将深度强化学习算法中蕴含在神经网络内的规则抽取并迁移到模糊推理树的目的。本发明在不改变决策效能的前提下,提升了决策指令的生成速度,且解决了追逃博弈信息不完全可知、决策方法的可调试性和可解释性差的问题。
-
公开(公告)号:CN118657170A
公开(公告)日:2024-09-17
申请号:CN202411089847.1
申请日:2024-08-09
Applicant: 西北工业大学 , 上海润璋智能科技股份有限公司
Abstract: 本发明公开了一种策略迭代算法及装置,涉及多智能体技术领域,用以解决现有涉及多个智能体之间协作与切换时,因拓扑关系无法修改导致团队协作无法体现的问题。该算法包括:根据追踪器在第#imgabs0#步的第一状态、逃避器在第#imgabs1#步的第一状态、在第#imgabs2#步的状态改变量得到追踪器在第#imgabs3#步的更新状态和逃避器在第#imgabs4#步的更新状态;根据追踪器在第#imgabs5#步的更新状态和逃避器在第#imgabs6#步的更新状态确定追踪器与逃避器之间的第一距离,若第一距离满足交换公式,则根据交换公式对所述第一距离对应的边权进行交换,并更新邻接矩阵;若更新系统价值函数第一系统价值函数的差值绝对值小于错误阈值,将第#imgabs7#步的更新控制策略确定为最终控制策略。
-