Patent search ap:("罗伯特·博世有限公司") AND inv:"S·阿德里安森" Page 1

1.

发明公开
用于学习策略和运行该策略的方法和设备审中-实审

公开(公告)号：CN113971460A

公开(公告)日：2022-01-25

申请号：CN202110830466.4

申请日：2021-07-22

Applicant: 罗伯特·博世有限公司

Inventor： S·阿德里安森 , A·别登卡普 , F·胡特尔 , G·沙拉 , M·林道尔 , N·阿瓦德

IPC: G06N3/08 , G06Q10/04 , G06K9/62 , G06V10/26

Abstract: 本发明涉及用于学习策略（π）的方法（20），所述策略（π）最佳地适配进化算法的至少一个参数（σ）。所述方法包括以下步骤：初始化所述策略，所述策略根据状态信息（S）确定所述参数（σ）的参数化（A）。借助于强化学习（英语：reinforcement learning）来学习所述策略（π），其中从CMA‑ES算法与借助于所述策略根据所述状态信息（S）确定的参数化的交互、与所述问题实例（14）的交互中以及从奖励信号（R）中学习到哪种参数化对于可能的状态信息是最佳的。

Patent Agency Ranking