识别与去除环境观测量中冗余信息的方法及装置

    公开(公告)号:CN112101556B

    公开(公告)日:2021-08-10

    申请号:CN202010863637.9

    申请日:2020-08-25

    Applicant: 清华大学

    Abstract: 本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。

    状态部分可观测强化学习算法的高效采样更新方法及装置

    公开(公告)号:CN111582439A

    公开(公告)日:2020-08-25

    申请号:CN202010291366.4

    申请日:2020-04-14

    Applicant: 清华大学

    Abstract: 本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。

    状态部分可观测强化学习算法的高效采样更新方法及装置

    公开(公告)号:CN111582439B

    公开(公告)日:2021-08-10

    申请号:CN202010291366.4

    申请日:2020-04-14

    Applicant: 清华大学

    Abstract: 本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。

    识别与去除环境观测量中冗余信息的方法及装置

    公开(公告)号:CN112101556A

    公开(公告)日:2020-12-18

    申请号:CN202010863637.9

    申请日:2020-08-25

    Applicant: 清华大学

    Abstract: 本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。

Patent Agency Ranking