-
公开(公告)号:CN113971460A
公开(公告)日:2022-01-25
申请号:CN202110830466.4
申请日:2021-07-22
Applicant: 罗伯特·博世有限公司
Abstract: 本发明涉及用于学习策略(π)的方法(20),所述策略(π)最佳地适配进化算法的至少一个参数(σ)。所述方法包括以下步骤:初始化所述策略,所述策略根据状态信息(S)确定所述参数(σ)的参数化(A)。借助于强化学习(英语:reinforcement learning)来学习所述策略(π),其中从CMA‑ES算法与借助于所述策略根据所述状态信息(S)确定的参数化的交互、与所述问题实例(14)的交互中以及从奖励信号(R)中学习到哪种参数化对于可能的状态信息是最佳的。