-
公开(公告)号:CN116841297A
公开(公告)日:2023-10-03
申请号:CN202310803274.3
申请日:2023-07-03
Applicant: 福州大学
Abstract: 本发明涉及一种面向仓储机器人系统的行为优先级智能调整方法。首先,为多机器人系统设计一些基本行为,并利用零空间投影方法将基本行为以不同的优先级顺序组合成为复合行为;其次,结合强化学习算法和零空间行为控制方法,将复合行为的速度输出作为强化学习的动作集合,构建强化学习任务监管RLMS;最后,对经验池和神经网络的结构分别进行了优化。本方法不需要人为地设定任务优先级的调整条件,从而减少了研究人员的工作量,并具有良好的可扩展性,能被应用于传统逻辑法难以处理的大数量任务优先级动态调整中。同时,由于本方法是离线学习完成后进行使用,不需要在线地进行计算和存储大量数据,在一定程度上减少了硬件的在线计算及存储的压力。
-
公开(公告)号:CN116339315A
公开(公告)日:2023-06-27
申请号:CN202310081659.3
申请日:2023-01-19
Applicant: 福州大学
IPC: G05D1/02
Abstract: 本发明涉及一种面向多智能体输入时滞系统的强化学习编队方法,包括:建立关于一阶多智能体系统之间的通讯拓扑图;建立系统中其余智能体与领航者智能体之间的跟踪误差;设计每个智能体的编队误差;引入新的系统变量,进而得到新的无时滞多智能体系统的动力学模型方程;建立系统中的跟踪误差并建立无时滞系统的编队误差;考虑一个控制器,当其使得无时滞系统达到编队一致时,原多智能体系统也可达到编队一致;建立两个系统对应的性能指标函数,使两个系统共同达到最优的条件;建立HJB方程;采用基于演员‑评论家网络结构方法建立基于强化学习的最优控制器;进行演员与评论家网络更新律的设计。该方法可以在保证编队一致和最优性的同时能够缩减计算时间。
-