-
公开(公告)号:CN117975190B
公开(公告)日:2024-11-05
申请号:CN202311868899.4
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/094
Abstract: 本发明提供一种基于视觉预训练模型的模仿学习混合样本处理方法及装置,该方法包括:获取专家样本集;向次优专家样本添加目标噪声得到噪声专家样本,根据噪声专家样本和最优专家样本得到混合样本集;标定混合样本集的权重系数,对重分布的混合样本集进行预测和评分,再根据评分结果训练策略网络和奖励函数网络,根据目标奖励函数网络对评估数据集的各样本进行评分,得到评估数据集对应的预测排序,以更新重分布的混合样本集中各样本对应的权重系数,最后根据目标策略网络对重分布后的权重系数进行模仿学习,得到优化后的专家样本。本发明所述方法针对品质不一的混合专家样本进行差异化学习,改善数据集样本分布,提升模仿学习智能体的泛化能力。
-
公开(公告)号:CN117975190A
公开(公告)日:2024-05-03
申请号:CN202311868899.4
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/094
Abstract: 本发明提供一种基于视觉预训练模型的模仿学习混合样本处理方法及装置,该方法包括:获取专家样本集;向次优专家样本添加目标噪声得到噪声专家样本,根据噪声专家样本和最优专家样本得到混合样本集;标定混合样本集的权重系数,对重分布的混合样本集进行预测和评分,再根据评分结果训练策略网络和奖励函数网络,根据目标奖励函数网络对评估数据集的各样本进行评分,得到评估数据集对应的预测排序,以更新重分布的混合样本集中各样本对应的权重系数,最后根据目标策略网络对重分布后的权重系数进行模仿学习,得到优化后的专家样本。本发明所述方法针对品质不一的混合专家样本进行差异化学习,改善数据集样本分布,提升模仿学习智能体的泛化能力。
-