-
公开(公告)号:CN115903820A
公开(公告)日:2023-04-04
申请号:CN202211507056.7
申请日:2022-11-29
Applicant: 上海大学
IPC: G05D1/02
Abstract: 本发明提供了一种多无人艇追逃博弈控制方法,包括:无人艇追逃时,在追击方的控制算法中引入序贯决策,进行“自我博弈”;观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及控制器接收观测器的最优响应,根据所述最优响应重新解算追击方的最优控制,如此交替进行,形成序贯决策;在该序贯决策基础之上,设计一种新型奖励函数形式并应用强化学习控制算法,完成多无人艇围捕任务。
-
公开(公告)号:CN115793455A
公开(公告)日:2023-03-14
申请号:CN202211507269.X
申请日:2022-11-29
Applicant: 上海大学
IPC: G05B13/04
Abstract: 本发明提供了一种基于Actor‑Critic‑Advantage网络的无人艇轨迹跟踪控制方法,包括:在Actor‑Critic网络基础上引入优势函数估计网络,形成新型Actor‑Critic‑Advantage网络;训练新型Actor‑Critic‑Advantage网络进行无人艇轨迹跟踪控制;无人艇轨迹跟踪训练采用单步获取策略梯度方式,利用优势函数估计网络输出值得到策略梯度更新策略网络;基于反步法求解虚拟控制律设计分段奖励函数;奖励函数中引入虚拟控制律,训练无人艇的速度输出趋向于虚拟控制律。
-