Patent search ap:("罗伯特·博世有限公司" OR "卡内基梅隆大学") AND inv:"M·罗德里克" Page 1

1.

发明公开
与不安全的物理环境交互审中-实审

公开(公告)号：CN113094113A

公开(公告)日：2021-07-09

申请号：CN202011514983.2

申请日：2020-12-21

Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学

Inventor： D·里布 , J·Z·柯尔特 , M·罗德里克 , V·纳加拉扬

IPC: G06F9/445

Abstract: 提供了与不安全的物理环境交互。本发明涉及配置与物理环境交互的系统的计算机实现的方法(700)。系统在物理环境状态下的动作根据转移概率导致物理环境的更新状态。指示已知可安全执行的状态‑动作对的安全组和要避免的状态‑动作对的不安全组。在环境交互期间，通过基于类似的其他状态‑动作对的经验转移概率估计状态‑动作对的转移概率，来更新状态‑动作对的安全组，并且仅当状态‑动作对未标记为不安全，并且基于估计转移概率可以以足够概率从该状态‑动作对达到状态‑动作对的安全组时，才将该状态‑动作对包括在状态‑动作对的安全组中。

2.

发明公开
用于机器人的改进的策略学习的设备和方法审中-公开

公开(公告)号：CN118673963A

公开(公告)日：2024-09-20

申请号：CN202410298199.4

申请日：2024-03-15

Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学

Inventor： F·博肯坎普 , G·马内克 , J·Z·柯尔特 , M·罗德里克

IPC: G06N3/045 , G06N3/092

Abstract: 一种学习用于代理的策略(π)的计算机实现的方法，包括以下步骤：接收(S1)初始化第一神经网络，特别是Q函数#imgabs0#或价值函数、初始化第二神经网络#imgabs1#辅助参数(A，B)和初始化策略(π)。重复以下步骤直到满足终止条件为止：从存储装置中对状态、动作、奖励和新状态的多个对(s，a，r，s′)进行采样(S2)。对当前状态的动作#imgabs2#以及新采样状态的动作#imgabs3#进行采样(S3)。基于采样状态和动作从第一神经网络的倒数第二层计算(S4)特征#imgabs4#以及使用重新加权的损失(LQ)更新(S5)第二神经网络#imgabs5#和辅助参数(A，B)以及更新(S5)第一神经网络的参数(θQ)。

3.

发明公开
具有神经网络和改进稳定性的控制器审中-实审

公开(公告)号：CN113448244A

公开(公告)日：2021-09-28

申请号：CN202110305701.6

申请日：2021-03-23

Applicant: 罗伯特·博世有限公司 , 卡内基梅隆大学

Inventor： J·Z·柯尔特 , M·法兹利亚布 , M·罗德里克 , P·L·唐蒂 , J·维诺格拉德斯卡

IPC: G05B13/04

Abstract: 具有神经网络和改进稳定性的控制器。一些实施例针对用于为计算机控制的机器生成控制信号的控制器。神经网络可以应用于当前传感器信号，该神经网络被配置为将传感器信号映射到原始控制信号。可以将投影函数应用于原始控制信号，以获得稳定的控制信号来控制计算机可控机器。

Patent Agency Ranking