-
公开(公告)号:CN114265674A
公开(公告)日:2022-04-01
申请号:CN202111155540.3
申请日:2021-09-29
Applicant: 鹏城实验室
IPC: G06F9/48
Abstract: 本申请公开了一种时序逻辑约束下基于强化学习的任务规划方法及相关装置,方法包括将待规划任务转换为确定性有限自动机;基于确定性有限自动机及初始策略确定状态动作轨迹;将状态动作轨迹及各状态动作对的外部奖励输入前馈神经网络,通过前馈神经网络输出各状态动作对的内部奖励;基于各外部奖励以及各内部奖励确定初始策略的第一目标函数及第一返回值,并基于第一目标函数及第一返回值更新初始策略的策略参数以得到待规划任务对应的目标策略。本申请通过注意力机制捕捉任务的时序特性,从而执行端在稀疏奖励环境中能够快速学习带有时序关系的任务,从而能够在不同环境中解决LTL约束下的稀疏奖励问题,使得强化学习可以学习到最优策略。
-
公开(公告)号:CN114265674B
公开(公告)日:2025-01-28
申请号:CN202111155540.3
申请日:2021-09-29
Applicant: 鹏城实验室
IPC: G06F9/48
Abstract: 本申请公开了一种时序逻辑约束下基于强化学习的任务规划方法及相关装置,方法包括将待规划任务转换为确定性有限自动机;基于确定性有限自动机及初始策略确定状态动作轨迹;将状态动作轨迹及各状态动作对的外部奖励输入前馈神经网络,通过前馈神经网络输出各状态动作对的内部奖励;基于各外部奖励以及各内部奖励确定初始策略的第一目标函数及第一返回值,并基于第一目标函数及第一返回值更新初始策略的策略参数以得到待规划任务对应的目标策略。本申请通过注意力机制捕捉任务的时序特性,从而执行端在稀疏奖励环境中能够快速学习带有时序关系的任务,从而能够在不同环境中解决LTL约束下的稀疏奖励问题,使得强化学习可以学习到最优策略。
-
公开(公告)号:CN111290277B
公开(公告)日:2023-01-10
申请号:CN202010121096.2
申请日:2020-02-26
Applicant: 鹏城实验室
IPC: G05B13/04
Abstract: 本发明公开了一种分布式多智能体协同故障检测方法、存储介质及设备,所述方法,构建多智能体系统故障检测参考模型;针对所述多智能体系统故障检测参考模型中的每个节点设计故障的自检算法,获得故障自检结果;根据所述故障自检结果对所述多智能体系统故障检测参考模型进行校正,优化节点间的协同机制,构成协同检测网络;基于所述协同检测网络构建分布式残差生成器,同时设计对应的门限函数对残差进行评价,获得故障互检结果,结合所述故障自检结果和所述故障互检结果确认所述多智能体系统故障。本发明可实现在仅获得邻居相对输出信息的情况下对多智能体协同故障进行检测,其计算复杂度低且在保证检测精度的同时可最大程度抑制干扰。
-
公开(公告)号:CN111290277A
公开(公告)日:2020-06-16
申请号:CN202010121096.2
申请日:2020-02-26
Applicant: 鹏城实验室
IPC: G05B13/04
Abstract: 本发明公开了一种分布式多智能体协同故障检测方法、存储介质及设备,所述方法,构建多智能体系统故障检测参考模型;针对所述多智能体系统故障检测参考模型中的每个节点设计故障的自检算法,获得故障自检结果;根据所述故障自检结果对所述多智能体系统故障检测参考模型进行校正,优化节点间的协同机制,构成协同检测网络;基于所述协同检测网络构建分布式残差生成器,同时设计对应的门限函数对残差进行评价,获得故障互检结果,结合所述故障自检结果和所述故障互检结果确认所述多智能体系统故障。本发明可实现在仅获得邻居相对输出信息的情况下对多智能体协同故障进行检测,其计算复杂度低且在保证检测精度的同时可最大程度抑制干扰。
-
-
-