-
公开(公告)号:CN119962565A
公开(公告)日:2025-05-09
申请号:CN202510449875.8
申请日:2025-04-11
Applicant: 复旦大学
Abstract: 本发明涉及一种基于人类反馈和任务目标的智能体运行轨迹优化方法,包括:根据任务目标,设计任务目标数学表达式;根据任务搭建强化学习环境;从同一状态出发,随机采样不同的两段轨迹片段,根据人类偏好对轨迹片段进行标注以更新奖励模型;从同一状态出发,根据任务目标数学表达式,判断智能体当前轨迹是否满足任务需求,并将满足任务需求的轨迹存入优势容器中,不满足需求的轨迹存入非优势容器中;随机从优势容器和非优势容器中提取轨迹片段,用于优化奖励模型;根据优化后的奖励模型进行强化学习训练智能体,输出得到智能体的最优运行轨迹。与现有技术相比,本发明能够减轻人类反馈负担、提高强化学习训练效率,提升智能体运行轨迹的精准性。