-
公开(公告)号:CN112215363A
公开(公告)日:2021-01-12
申请号:CN202010662616.0
申请日:2020-07-10
Applicant: 罗伯特·博世有限公司
Abstract: 本发明涉及一种用于为机器人(10)创建策略的方法,包括以下步骤:初始化所述策略θ0和情节长度E;多次实施具有以下步骤的循环:根据所述策略θ0创建多个其他策略;对于情节长度E的长度应用所述多个其他策略;分别确定总奖励FE,所述总奖励在应用相应的其他策略时被获得;根据已获得最大总奖励的第二多个其他策略来更新所述策略θ0。在每次实施循环之后,使所述情节长度E增加。本发明此外涉及用于实施该方法的设备和计算机程序以及涉及其上存储有计算机程序的机器可读存储元件。
-
公开(公告)号:CN113971460A
公开(公告)日:2022-01-25
申请号:CN202110830466.4
申请日:2021-07-22
Applicant: 罗伯特·博世有限公司
Abstract: 本发明涉及用于学习策略(π)的方法(20),所述策略(π)最佳地适配进化算法的至少一个参数(σ)。所述方法包括以下步骤:初始化所述策略,所述策略根据状态信息(S)确定所述参数(σ)的参数化(A)。借助于强化学习(英语:reinforcement learning)来学习所述策略(π),其中从CMA‑ES算法与借助于所述策略根据所述状态信息(S)确定的参数化的交互、与所述问题实例(14)的交互中以及从奖励信号(R)中学习到哪种参数化对于可能的状态信息是最佳的。
-