Patent search ap:("中国科学院自动化研究所") AND inv:"陈瑀柔" Page 1

1.

发明公开
智能体任务学习方法及装置有权

公开(公告)号：CN114298302A

公开(公告)日：2022-04-08

申请号：CN202111539729.2

申请日：2021-12-15

Applicant: 中国科学院自动化研究所

Inventor： 刘智勇 , 钱一鸣 , 张丰一 , 陈瑀柔

IPC: G06N3/08 , G06N3/04

Abstract: 本发明提供一种智能体任务学习方法及装置，该方法包括：基于自然策略梯度算法，以智能体在各历史任务下的状态信息作为样本，以智能体在各历史任务下的动作信息为样本标签，对动作预测模型的第一策略参数进行迭代更新，获取各历史任务对应的动作预测模型的最优第一策略参数；将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集，对任务学习模型进行迭代训练；将新任务对应的关键影响因子输入训练后的任务学习模型中，得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

2.

发明授权
智能体任务学习方法及装置有权

公开(公告)号：CN114298302B

公开(公告)日：2025-05-02

申请号：CN202111539729.2

申请日：2021-12-15

Applicant: 中国科学院自动化研究所

Inventor： 刘智勇 , 钱一鸣 , 张丰一 , 陈瑀柔

IPC: G06N3/092 , G06N3/084 , G06N3/0464 , G06N3/042 , G06N3/045

Abstract: 本发明提供一种智能体任务学习方法及装置，该方法包括：基于自然策略梯度算法，以智能体在各历史任务下的状态信息作为样本，以智能体在各历史任务下的动作信息为样本标签，对动作预测模型的第一策略参数进行迭代更新，获取各历史任务对应的动作预测模型的最优第一策略参数；将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集，对任务学习模型进行迭代训练；将新任务对应的关键影响因子输入训练后的任务学习模型中，得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

3.

发明公开
跨模态目标检测中的差异自动校准方法、系统、装置无效

公开(公告)号：CN110334708A

公开(公告)日：2019-10-15

申请号：CN201910595902.7

申请日：2019-07-03

Applicant: 中国科学院自动化研究所

Inventor： 刘智勇 , 张璐 , 杨旭 , 陈瑀柔

IPC: G06K9/32 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明属于计算机视觉、模式识别与机器学习领域，具体涉及一种跨模态目标检测中的差异自动校准方法、系统、装置，旨在解决彩色-热度图像差异问题导致检测不准确的问题。本系统方法包括获取待检测的彩色-热度多模态图像，构建输入图像集合；获取输入图像集合中各模态图像的特征图，并提取共享候选区域；将各共享候选区域对齐，通过池化得到各共享候选区域的特征表示；基于预设分类器获取共享候选区域的特征表示的类别，通过偏差回归获取共享候选区域的位置；根据共享候选区域的特征表示的类别，采用非极大值抑制，获取概率最大的共享候选区域，并根据位置返回到待检测图像中进行标记。本发明显著提高了行人探测器的鲁棒性和跨模态检测的准确性。

Patent Agency Ranking