-
公开(公告)号:CN117332814B
公开(公告)日:2024-08-09
申请号:CN202311637177.8
申请日:2023-12-01
Applicant: 中国科学院自动化研究所
IPC: G06N3/0442 , G06N3/045 , G06N3/092
Abstract: 本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中,基于模块化网络的合作智能体学习方法包括:根据合作智能体的观测信息表征数据和身份信息表征数据,利用门控信息提取模块,得到基础网络模块中各个门控单元的门控数据信息;将门控数据信息代入基础网络模块的各个门控单元,利用基础网络模块,处理合作智能体的观测信息表征数据,得到智能体在当前时刻的动作价值函数;根据所有合作智能体的在当前时刻的动作价值函数,执行端到端的训练,更新合作智能体模型的参数,直至达到训练结束条件,得到训练后的合作智能体模型。
-
公开(公告)号:CN117332814A
公开(公告)日:2024-01-02
申请号:CN202311637177.8
申请日:2023-12-01
Applicant: 中国科学院自动化研究所
IPC: G06N3/0442 , G06N3/045 , G06N3/092
Abstract: 本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中,基于模块化网络的合作智能体学习方法包括:根据合作智能体的观测信息表征数据和身份信息表征数据,利用门控信息提取模块,得到基础网络模块中各个门控单元的门控数据信息;将门控数据信息代入基础网络模块的各个门控单元,利用基础网络模块,处理合作智能体的观测信息表征数据,得到智能体在当前时刻的动作价值函数;根据所有合作智能体的在当前时刻的动作价值函数,执行端到端的训练,更新合作智能体模型的参数,直至达到训练结束条件,得到训练后的合作智能体模型。
-