-
公开(公告)号:CN114020413B
公开(公告)日:2024-07-23
申请号:CN202111303747.0
申请日:2021-11-05
Applicant: 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。
-
公开(公告)号:CN113743583B
公开(公告)日:2024-02-02
申请号:CN202110904687.1
申请日:2021-08-07
Applicant: 中国航空工业集团公司沈阳飞机设计研究所 , 沈阳飞机设计研究所扬州协同创新研究院有限公司
IPC: G06N3/0499 , G06N3/092 , G05D1/24
Abstract: 本申请涉及机器学习技术领域,具体涉及一种基于强化学习的智能体无效行为切换抑制方法。该方法包括:步骤S1、在记忆库中采样一个batch的样本数据;步骤S2、更新强化学习模型的内层模型策略网络与价值网络;步骤S3、固定内层网络参数,更新外层模型策略网络与价值网络,其中,引入智能体无效行为切换算子,并在外层模型相对于内层模型执行无效行为时,降低其价值网络的奖励;步骤S4、以外层模型策略网络的强化学习策略作为智能体实时交互策略并采集数据,更新所述记忆库的交互数据;步骤S5、重复上述步骤,直至模型收敛。本申请在不引入额外人工标注的条件下有效降低智能体的频繁动作切换,不影响模型收敛性能,并提升强化学习模型的鲁棒性与实用性。
-
公开(公告)号:CN114020413A
公开(公告)日:2022-02-08
申请号:CN202111303747.0
申请日:2021-11-05
Applicant: 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。
-
公开(公告)号:CN113743583A
公开(公告)日:2021-12-03
申请号:CN202110904687.1
申请日:2021-08-07
Applicant: 中国航空工业集团公司沈阳飞机设计研究所 , 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本申请涉及机器学习技术领域,具体涉及一种基于强化学习的智能体无效行为切换抑制方法。该方法包括:步骤S1、在记忆库中采样一个batch的样本数据;步骤S2、更新强化学习模型的内层模型策略网络与价值网络;步骤S3、固定内层网络参数,更新外层模型策略网络与价值网络,其中,引入智能体无效行为切换算子,并在外层模型相对于内层模型执行无效行为时,降低其价值网络的奖励;步骤S4、以外层模型策略网络的强化学习策略作为智能体实时交互策略并采集数据,更新所述记忆库的交互数据;步骤S5、重复上述步骤,直至模型收敛。本申请在不引入额外人工标注的条件下有效降低智能体的频繁动作切换,不影响模型收敛性能,并提升强化学习模型的鲁棒性与实用性。
-
公开(公告)号:CN114358247A
公开(公告)日:2022-04-15
申请号:CN202111625582.9
申请日:2021-12-28
Applicant: 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本发明公开一种基于因果关系推断的智能体行为解释方法,属辅助决策、因果推断技术领域。通过对采用强化学习进行训练的智能体进行训练数据采集,数据包含智能体训练过程中的环境状态、采取的动作和奖励信息;将数据通过因果关系发现、数据回归拟合的方法进行离线训练,输出合理的行为因果关系模型;利用行为因果关系模型对智能体行为进行在线解释。本发明可以达到很好的行为解释效果。
-
公开(公告)号:CN114358247B
公开(公告)日:2024-11-19
申请号:CN202111625582.9
申请日:2021-12-28
Applicant: 沈阳飞机设计研究所扬州协同创新研究院有限公司
IPC: G06N3/0499 , G06N3/048 , G06N20/00 , G05D1/49 , G05D1/46
Abstract: 本发明公开一种基于因果关系推断的智能体行为解释方法,属辅助决策、因果推断技术领域。通过对采用强化学习进行训练的智能体进行训练数据采集,数据包含智能体训练过程中的环境状态、采取的动作和奖励信息;将数据通过因果关系发现、数据回归拟合的方法进行离线训练,输出合理的行为因果关系模型;利用行为因果关系模型对智能体行为进行在线解释。本发明可以达到很好的行为解释效果。
-
公开(公告)号:CN113742065A
公开(公告)日:2021-12-03
申请号:CN202110904681.4
申请日:2021-08-07
Applicant: 中国航空工业集团公司沈阳飞机设计研究所 , 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本申请涉及机器学习技术领域,具体涉及一种基于kubernetes容器集群的分布式强化学习方法及装置。该方法包括:步骤S1、将采样任务以容器的形式运行在第一Kubernetes集群中,所述采样任务用于在机器学习的网络参数中进行采样;步骤S2、将训练任务以容器的形式运行在第二Kubernetes集群中,所述训练任务用于根据采样的数据进行机器学习,形成网络参数。本申请能够大幅提升实验效率及节约成本,仅需要一条命令一键更新容器镜像,集群就会自动滚动更新,从小时级别缩短到分钟级别。
-
公开(公告)号:CN114021456A
公开(公告)日:2022-02-08
申请号:CN202111303805.X
申请日:2021-11-05
Applicant: 沈阳飞机设计研究所扬州协同创新研究院有限公司
Abstract: 本发明公开一种基于强化学习的智能体无效行为切换抑制方法,属于航空工程、强化学习领域。通过智能体与仿真环境交互进行数据采样,并基于深度强化学习进行模型训练;将本算法加入模型训练过程,抑制智能体在执行时无效动作切换的产生,平滑强化学习智能体的动作执行机制。本发明能够达到较为明显的智能体无效动作切换抑制效果。
-
-
-
-
-
-
-