-
公开(公告)号:CN112215363A
公开(公告)日:2021-01-12
申请号:CN202010662616.0
申请日:2020-07-10
Applicant: 罗伯特·博世有限公司
Abstract: 本发明涉及一种用于为机器人(10)创建策略的方法,包括以下步骤:初始化所述策略θ0和情节长度E;多次实施具有以下步骤的循环:根据所述策略θ0创建多个其他策略;对于情节长度E的长度应用所述多个其他策略;分别确定总奖励FE,所述总奖励在应用相应的其他策略时被获得;根据已获得最大总奖励的第二多个其他策略来更新所述策略θ0。在每次实施循环之后,使所述情节长度E增加。本发明此外涉及用于实施该方法的设备和计算机程序以及涉及其上存储有计算机程序的机器可读存储元件。