用以改进机器人策略学习的设备和方法

    公开(公告)号:CN115081612A

    公开(公告)日:2022-09-20

    申请号:CN202210250821.5

    申请日:2022-03-15

    Abstract: 用以改进机器人策略学习的设备和方法。一种用于学习策略的计算机实现的方法,包括以下步骤:至少记录代理与其遵循策略的环境的交互情节,并将所记录的情节添加到训练数据集合。基于训练数据来优化转变动力学模型,使得转变动力学模型取决于训练数据中包含的状态和动作来预测环境的下一状态。通过优化回报,基于训练数据和转变动力学模型来优化策略参数。该方法的特征在于,转变动力学模型包括表征全局模型的第一模型和表征校正模型的第二模型,该校正模型被配置为校正第一模型的输出。

    用于控制物理或化学过程的系统、设备和方法

    公开(公告)号:CN115877799A

    公开(公告)日:2023-03-31

    申请号:CN202211171179.8

    申请日:2022-09-26

    Abstract: 本发明公开控制物理或化学过程的系统、设备和方法,该方法具有:依据第一后验模型确定第二后验模型,第一后验模型描述与物理/化学过程相关的过程的输入参量与输出参量之间的关系,第二后验模型描述物理或化学过程的输入参量与输出参量之间的关系,其中该确定具有:确定具有共同的协方差函数的多个高斯过程,每个高斯过程通过如下方式确定:从第一后验模型中提取函数且该函数形成高斯过程的预期值,且(i)将先验模型确定为多个高斯过程的平均值,且借助将先验模型调节到已知测量点来确定第二后验模型,或(ii)将每个高斯过程调节到已知测量点且将第二后验模型确定为经调节的多个高斯过程的平均值;使用第二后验模型来控制该物理或化学过程。

    对车辆的行驶动态调节系统进行最佳参数化的方法和装置

    公开(公告)号:CN115534970A

    公开(公告)日:2022-12-30

    申请号:CN202210747794.2

    申请日:2022-06-29

    Abstract: 用于对车辆的行驶动态调节器进行参数化的方法和装置,该行驶动态调节器以调节的方式来干预车辆的行驶动态,其中行驶动态调节器根据车辆状态()来确定行动(),该方法包括如下步骤:提供用于预测车辆状态的模型,该模型被设立为:根据车辆状态()和行动()来预测后续车辆状态();确定至少一个数据元组,其包括车辆状态的序列和分别被分配的行动,其中车辆状态借助于模型()根据通过行驶动态调节器所确定的行动来被确定;使行驶动态调节器的参数(θ)改变/适配,使得成本函数()被最小化,该成本函数根据所述数据元组的车辆状态和分别被分配的车辆状态的所确定的行动来确定所记录的轨迹的成本并且取决于行驶动态调节器的参数。

Patent Agency Ranking