-
公开(公告)号:CN114861870A
公开(公告)日:2022-08-05
申请号:CN202210372773.7
申请日:2022-04-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种配置神经网络架构的方法、装置及设备,其中,所述方法包括:接入待训练神经网络的决策问题;根据所述决策问题,得到所述决策问题的第一环境;将所述决策问题与所述第一环境进行封装,得到封装后的第二环境;接入所述待训练神经网络;根据所述第二环境以及所述待训练神经网络,接入架构算法;将所述第二环境、所述待训练神经网络以及所述架构算法进行适配,生成轨迹数据属性;根据所述轨迹数据属性对所述待训练神经网络进行优化,得到配置架构后的待训练神经网络。通过上述方式,本发明提高了神经网络架构配置的通用性和扩展性。
-
公开(公告)号:CN118278494A
公开(公告)日:2024-07-02
申请号:CN202410489938.8
申请日:2024-04-23
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/098 , G06N5/04
Abstract: 本发明提供一种用于兵棋推演的可扩展大规模博弈强化学习方法及装置,涉及强化学习技术领域,所述方法包括:构建可扩展的大规模博弈兵棋推演对抗场景;确定强化学习的状态空间、动作空间和奖励构成;基于分组的注意力网络,将联合策略拆分为分组策略,进行博弈对抗中智能体的学习和训练。本发明提供的用于兵棋推演的可扩展大规模博弈强化学习方法及装置,将注意力机制引入多智能体问题中,增强模型在处理长序列观测状态时的学习能力,智能体间的协同关系会通过梯度的优化不断得到强化,最终使得整个协同任务的完成效率达到最大。
-
公开(公告)号:CN114492801A
公开(公告)日:2022-05-13
申请号:CN202210402980.2
申请日:2022-04-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种神经网络的训练方法、装置及设备,其中,所述方法包括:构建至少一个计算单元;将待训练神经网络分别放置到所述至少一个计算单元内,每个计算单元执行参数生成操作,分别得到每个计算单元生成的梯度数据;将所述每个计算单元得出的梯度数据进行平均化,得到平均化后的梯度数据;根据所述平均化后的梯度数据更新所述待训练神经网络;任一所述计算单元的参数生成操作包括:运行所述计算单元中的待训练神经网络,生成轨迹数据;根据所述轨迹数据,生成梯度数据。通过上述方式,本发明提高了神经网络的训练效率。
-
-