与不安全的物理环境交互
    1.
    发明公开

    公开(公告)号:CN113094113A

    公开(公告)日:2021-07-09

    申请号:CN202011514983.2

    申请日:2020-12-21

    Abstract: 提供了与不安全的物理环境交互。本发明涉及配置与物理环境交互的系统的计算机实现的方法(700)。系统在物理环境状态下的动作根据转移概率导致物理环境的更新状态。指示已知可安全执行的状态‑动作对的安全组和要避免的状态‑动作对的不安全组。在环境交互期间,通过基于类似的其他状态‑动作对的经验转移概率估计状态‑动作对的转移概率,来更新状态‑动作对的安全组,并且仅当状态‑动作对未标记为不安全,并且基于估计转移概率可以以足够概率从该状态‑动作对达到状态‑动作对的安全组时,才将该状态‑动作对包括在状态‑动作对的安全组中。

    用于机器人的改进的策略学习的设备和方法

    公开(公告)号:CN118673963A

    公开(公告)日:2024-09-20

    申请号:CN202410298199.4

    申请日:2024-03-15

    Abstract: 一种学习用于代理的策略(π)的计算机实现的方法,包括以下步骤:接收(S1)初始化第一神经网络,特别是Q函数#imgabs0#或价值函数、初始化第二神经网络#imgabs1#辅助参数(A,B)和初始化策略(π)。重复以下步骤直到满足终止条件为止:从存储装置中对状态、动作、奖励和新状态的多个对(s,a,r,s′)进行采样(S2)。对当前状态的动作#imgabs2#以及新采样状态的动作#imgabs3#进行采样(S3)。基于采样状态和动作从第一神经网络的倒数第二层计算(S4)特征#imgabs4#以及使用重新加权的损失(LQ)更新(S5)第二神经网络#imgabs5#和辅助参数(A,B)以及更新(S5)第一神经网络的参数(θQ)。

Patent Agency Ranking