智能体任务学习方法及装置

    公开(公告)号:CN114298302B

    公开(公告)日:2025-05-02

    申请号:CN202111539729.2

    申请日:2021-12-15

    Abstract: 本发明提供一种智能体任务学习方法及装置,该方法包括:基于自然策略梯度算法,以智能体在各历史任务下的状态信息作为样本,以智能体在各历史任务下的动作信息为样本标签,对动作预测模型的第一策略参数进行迭代更新,获取各历史任务对应的动作预测模型的最优第一策略参数;将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集,对任务学习模型进行迭代训练;将新任务对应的关键影响因子输入训练后的任务学习模型中,得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

    一种机械臂路径规划方法、系统及装置

    公开(公告)号:CN109176532A

    公开(公告)日:2019-01-11

    申请号:CN201811333508.8

    申请日:2018-11-09

    Abstract: 本发明属于机器人技术领域,具体涉及一种机械臂路径规划方法、系统及装置,旨在解决从序贯式数据逐步建立序列模型而发生灾难性遗忘的问题。本发明方法包括,从多任务序列R中选取一个未经优化的任务Ri;基于任务Ri的局部策略pi来生成成功抓取的样本轨迹集合Dm;基于Dm拟合线性高斯动力学模型;采用直接优化单一的局部策略的方法优化得到优化后的局部策略p1i;基于p1i生成成功抓取的样本轨迹集合D1m;采用EWC算法,基于D1m优化全局策略πθ;重复上述步骤直至R任务被遍历,输出最后优化的到的全局策略πθ,进行机械臂多任务下的路径规划。通过本发明从序贯式数据逐步建立序列模型而不发生灾难性的遗忘。

    一种机械臂路径规划方法、系统及装置

    公开(公告)号:CN109176532B

    公开(公告)日:2020-09-29

    申请号:CN201811333508.8

    申请日:2018-11-09

    Abstract: 本发明属于机器人技术领域,具体涉及一种机械臂路径规划方法、系统及装置,旨在解决从序贯式数据逐步建立序列模型而发生灾难性遗忘的问题。本发明方法包括,从多任务序列R中选取一个未经优化的任务Ri;基于任务Ri的局部策略pi来生成成功抓取的样本轨迹集合Dm;基于Dm拟合线性高斯动力学模型;采用直接优化单一的局部策略的方法优化得到优化后的局部策略p1i;基于p1i生成成功抓取的样本轨迹集合D1m;采用EWC算法,基于D1m优化全局策略πθ;重复上述步骤直至R任务被遍历,输出最后优化的到的全局策略πθ,进行机械臂多任务下的路径规划。通过本发明从序贯式数据逐步建立序列模型而不发生灾难性的遗忘。

    智能体任务学习方法及装置

    公开(公告)号:CN114298302A

    公开(公告)日:2022-04-08

    申请号:CN202111539729.2

    申请日:2021-12-15

    Abstract: 本发明提供一种智能体任务学习方法及装置,该方法包括:基于自然策略梯度算法,以智能体在各历史任务下的状态信息作为样本,以智能体在各历史任务下的动作信息为样本标签,对动作预测模型的第一策略参数进行迭代更新,获取各历史任务对应的动作预测模型的最优第一策略参数;将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集,对任务学习模型进行迭代训练;将新任务对应的关键影响因子输入训练后的任务学习模型中,得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

Patent Agency Ranking