Patent search ap:("中国科学院自动化研究所") AND inv:"杨光开" Page 1

1.

发明授权
多智能体信用分配方法、装置、可读存储介质和智能体有权

公开(公告)号：CN115660110B

公开(公告)日：2023-04-14

申请号：CN202211672682.1

申请日：2022-12-26

Applicant: 中国科学院自动化研究所

Inventor： 张俊格 , 张茗奕 , 杨光开 , 陈皓 , 黄凯奇 , 陈丹丹 , 王陆

IPC: G06N20/00

Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体，涉及强化学习、多智能体技术领域。该方法包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。

2.

发明授权
基于集成学习的多智能体信用分配方法、系统、设备有权

公开(公告)号：CN115018017B

公开(公告)日：2022-10-28

申请号：CN202210924862.8

申请日：2022-08-03

Applicant: 中国科学院自动化研究所

Inventor： 张俊格 , 黄凯奇 , 陈皓 , 杨光开

IPC: G06K9/62 , G06N20/20 , G06N3/04 , A63F13/843

Abstract: 本发明属于强化学习、多智能体领域，具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备，旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作，造成多智能体协调能力差的问题。本方法包括：分别获取博弈双方每一个智能体的动作信息和历史观测信息，作为输入信息；将输入信息分别输入各智能体对应的智能体网络，得到Q值；各智能体根据Q值，得到e‑greedy策略，进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配，进而实现了智能体在博弈环境中取得最优动作进行探索，提升多智能体协调能力。

3.

发明公开
多智能体信用分配方法、装置、可读存储介质和智能体有权

公开(公告)号：CN115660110A

公开(公告)日：2023-01-31

申请号：CN202211672682.1

申请日：2022-12-26

Applicant: 中国科学院自动化研究所

Inventor： 张俊格 , 张茗奕 , 杨光开 , 陈皓 , 黄凯奇 , 陈丹丹 , 王陆

IPC: G06N20/00

Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体，涉及强化学习、多智能体技术领域。该方法包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。

4.

发明公开
基于集成学习的多智能体信用分配方法、系统、设备有权

公开(公告)号：CN115018017A

公开(公告)日：2022-09-06

申请号：CN202210924862.8

申请日：2022-08-03

Applicant: 中国科学院自动化研究所

Inventor： 张俊格 , 黄凯奇 , 陈皓 , 杨光开

IPC: G06K9/62 , G06N20/20 , G06N3/04 , A63F13/843

Abstract: 本发明属于强化学习、多智能体领域，具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备，旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作，造成多智能体协调能力差的问题。本方法包括：分别获取博弈双方每一个智能体的动作信息和历史观测信息，作为输入信息；将输入信息分别输入各智能体对应的智能体网络，得到Q值；各智能体根据Q值，得到e‑greedy策略，进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配，进而实现了智能体在博弈环境中取得最优动作进行探索，提升多智能体协调能力。

Patent Agency Ranking