Patent search ap:("浙江大学") AND inv:"王淑晗" Page 1

1.

发明公开
一种基于强化学习的域协调多智能体系统协作控制方法有权

公开(公告)号：CN113625561A

公开(公告)日：2021-11-09

申请号：CN202110863195.2

申请日：2021-07-29

Applicant: 浙江大学

Inventor： 张寅 , 王淑晗

IPC: G05B13/04 , G06F30/27 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于强化学习的域协调多智能体系统协作控制方法。该方法将每个机器人视为多域协作场景中的一个智能体，对其进行域的划分；然后使用先验域信息作为监督信号，在图卷积层中约束同域智能体之间形成更加相似的域共识向量，进行域内强协调。域共识向量可被理解为同域智能体之间应产生的对于环境的共同认知，有助于智能体加深对环境的理解，形成更紧密的合作关系；再通过图网络进行链路传播，在集中式价值网络中沟通各个智能体，完成域内强协调和域外弱协调的统一；模型训练完成后策略网络分散执行，根据智能体的观察决定采取的动作。和现有技术相比，本发明在多域协作场景下有出色表现，大大提高了多智能体系统的协作效率。

2.

发明授权
一种基于强化学习的域协调多智能体系统协作控制方法有权

公开(公告)号：CN113625561B

公开(公告)日：2023-09-26

申请号：CN202110863195.2

申请日：2021-07-29

Applicant: 浙江大学

Inventor： 张寅 , 王淑晗

IPC: G05B13/04 , G06F30/27 , G06N3/048 , G06N3/08 , G06N3/0464

Abstract: 本发明公开了一种基于强化学习的域协调多智能体系统协作控制方法。该方法将每个机器人视为多域协作场景中的一个智能体，对其进行域的划分；然后使用先验域信息作为监督信号，在图卷积层中约束同域智能体之间形成更加相似的域共识向量，进行域内强协调。域共识向量可被理解为同域智能体之间应产生的对于环境的共同认知，有助于智能体加深对环境的理解，形成更紧密的合作关系；再通过图网络进行链路传播，在集中式价值网络中沟通各个智能体，完成域内强协调和域外弱协调的统一；模型训练完成后策略网络分散执行，根据智能体的观察决定采取的动作。和现有技术相比，本发明在多域协作场景下有出色表现，大大提高了多智能体系统的协作效率。

Patent Agency Ranking