Patent search ap:("中国科学院自动化研究所") AND inv:"钱一鸣" Page 1

1.

发明公开
智能体任务学习方法及装置有权

公开(公告)号：CN114298302A

公开(公告)日：2022-04-08

申请号：CN202111539729.2

申请日：2021-12-15

Applicant: 中国科学院自动化研究所

Inventor： 刘智勇 , 钱一鸣 , 张丰一 , 陈瑀柔

IPC: G06N3/08 , G06N3/04

Abstract: 本发明提供一种智能体任务学习方法及装置，该方法包括：基于自然策略梯度算法，以智能体在各历史任务下的状态信息作为样本，以智能体在各历史任务下的动作信息为样本标签，对动作预测模型的第一策略参数进行迭代更新，获取各历史任务对应的动作预测模型的最优第一策略参数；将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集，对任务学习模型进行迭代训练；将新任务对应的关键影响因子输入训练后的任务学习模型中，得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

2.

发明授权
智能体任务学习方法及装置有权

公开(公告)号：CN114298302B

公开(公告)日：2025-05-02

申请号：CN202111539729.2

申请日：2021-12-15

Applicant: 中国科学院自动化研究所

Inventor： 刘智勇 , 钱一鸣 , 张丰一 , 陈瑀柔

IPC: G06N3/092 , G06N3/084 , G06N3/0464 , G06N3/042 , G06N3/045

Abstract: 本发明提供一种智能体任务学习方法及装置，该方法包括：基于自然策略梯度算法，以智能体在各历史任务下的状态信息作为样本，以智能体在各历史任务下的动作信息为样本标签，对动作预测模型的第一策略参数进行迭代更新，获取各历史任务对应的动作预测模型的最优第一策略参数；将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集，对任务学习模型进行迭代训练；将新任务对应的关键影响因子输入训练后的任务学习模型中，得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

Patent Agency Ranking