一种基于人类反馈和任务目标的智能体运行轨迹优化方法

    公开(公告)号:CN119962565A

    公开(公告)日:2025-05-09

    申请号:CN202510449875.8

    申请日:2025-04-11

    Applicant: 复旦大学

    Abstract: 本发明涉及一种基于人类反馈和任务目标的智能体运行轨迹优化方法,包括:根据任务目标,设计任务目标数学表达式;根据任务搭建强化学习环境;从同一状态出发,随机采样不同的两段轨迹片段,根据人类偏好对轨迹片段进行标注以更新奖励模型;从同一状态出发,根据任务目标数学表达式,判断智能体当前轨迹是否满足任务需求,并将满足任务需求的轨迹存入优势容器中,不满足需求的轨迹存入非优势容器中;随机从优势容器和非优势容器中提取轨迹片段,用于优化奖励模型;根据优化后的奖励模型进行强化学习训练智能体,输出得到智能体的最优运行轨迹。与现有技术相比,本发明能够减轻人类反馈负担、提高强化学习训练效率,提升智能体运行轨迹的精准性。

    基于动态神经符号距离场的机器人感知与控制方法和系统

    公开(公告)号:CN119927933A

    公开(公告)日:2025-05-06

    申请号:CN202510435517.1

    申请日:2025-04-09

    Applicant: 复旦大学

    Abstract: 本发明涉及一种基于动态神经符号距离场的机器人感知与控制方法和系统,方法包括:获取机器人的各个原始网格文件;根据网格文件构建整体机器人,并进行随机采样,计算采样点到每个机器人关节处的SDF真实值,并进行拟合,得到静态神经符号距离场;采样机器人的关节位置,得到前向运动学结果作为输入,对静态神经符号距离场进行蒸馏,得到动态神经符号距离场;利用强化学习技术对机器人进行训练,使用动态神经符号距离场作为外部感知输入,以关节角度作为机器人的输出,训练得到教师策略;对教师策略进行蒸馏,得到学生策略,用于进行机器人的运动控制。与现有技术相比,本发明具有实现了碰撞情况的提前预判、控制准确、处理效率高等优点。

Patent Agency Ranking