-
公开(公告)号:CN113094113A
公开(公告)日:2021-07-09
申请号:CN202011514983.2
申请日:2020-12-21
Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学
IPC: G06F9/445
Abstract: 提供了与不安全的物理环境交互。本发明涉及配置与物理环境交互的系统的计算机实现的方法(700)。系统在物理环境状态下的动作根据转移概率导致物理环境的更新状态。指示已知可安全执行的状态‑动作对的安全组和要避免的状态‑动作对的不安全组。在环境交互期间,通过基于类似的其他状态‑动作对的经验转移概率估计状态‑动作对的转移概率,来更新状态‑动作对的安全组,并且仅当状态‑动作对未标记为不安全,并且基于估计转移概率可以以足够概率从该状态‑动作对达到状态‑动作对的安全组时,才将该状态‑动作对包括在状态‑动作对的安全组中。
-
公开(公告)号:CN118673963A
公开(公告)日:2024-09-20
申请号:CN202410298199.4
申请日:2024-03-15
Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学
Abstract: 一种学习用于代理的策略(π)的计算机实现的方法,包括以下步骤:接收(S1)初始化第一神经网络,特别是Q函数#imgabs0#或价值函数、初始化第二神经网络#imgabs1#辅助参数(A,B)和初始化策略(π)。重复以下步骤直到满足终止条件为止:从存储装置中对状态、动作、奖励和新状态的多个对(s,a,r,s′)进行采样(S2)。对当前状态的动作#imgabs2#以及新采样状态的动作#imgabs3#进行采样(S3)。基于采样状态和动作从第一神经网络的倒数第二层计算(S4)特征#imgabs4#以及使用重新加权的损失(LQ)更新(S5)第二神经网络#imgabs5#和辅助参数(A,B)以及更新(S5)第一神经网络的参数(θQ)。
-
公开(公告)号:CN113448244A
公开(公告)日:2021-09-28
申请号:CN202110305701.6
申请日:2021-03-23
Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学
IPC: G05B13/04
Abstract: 具有神经网络和改进稳定性的控制器。一些实施例针对用于为计算机控制的机器生成控制信号的控制器。神经网络可以应用于当前传感器信号,该神经网络被配置为将传感器信号映射到原始控制信号。可以将投影函数应用于原始控制信号,以获得稳定的控制信号来控制计算机可控机器。
-
-