基于内部逻辑归纳的机器人决策策略训练方法及系统

    公开(公告)号:CN117075470A

    公开(公告)日:2023-11-17

    申请号:CN202310976077.1

    申请日:2023-08-04

    Applicant: 南京大学

    Abstract: 本发明公开一种基于内部逻辑归纳的机器人决策策略训练方法及系统,在像素‑符号混合形式输入的机器人决策环境下,该方法针对不同输入形式的特点,将深度强化学习算法和规则学习算法整合,分别处理像素输入和符号输入。在机器人决策策略训练过程中,规则学习算法从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识进行奖励工程设计,帮助深度强化学习算法的训练,提高训练方法的样本数据利用效率。

    基于情节记忆的多智能体协同策略的训练方法和系统

    公开(公告)号:CN116360435A

    公开(公告)日:2023-06-30

    申请号:CN202310294489.7

    申请日:2023-03-24

    Applicant: 南京大学

    Abstract: 本发明公开一种基于情节记忆的多智能体协同策略的训练方法和系统,利用情节记忆方法,在收集训练数据时,记录各个机器人不同状态下经历的情节与对应累计回报,并将该情节与对应回报作为策略训练时机器人的额外目标。通过多机器人强化学习方法,使得各机器人能够在有限数据下快速学习高效协同策略,训练得到的机器人协同策略使智能体在决策时,既能考虑目前的状态价值函数,又能考虑到长期的情节回报,从而实现综合决策。本发明在实际场景中仅通过少量训练数据实现快速策略训练,以有效应对动态开放场景下的合作任务。

Patent Agency Ranking