Patent search ap:("鹏城实验室") AND inv:"邢介邦" Page 1

1.

发明公开
用于形成追捕策略的强化学习模型训练方法和训练装置有权

公开(公告)号：CN114779631A

公开(公告)日：2022-07-22

申请号：CN202210278558.0

申请日：2022-03-21

Applicant: 鹏城实验室

Inventor： 邢介邦 , 丁玉隆 , 崔金强 , 孙涛 , 宋伟伟

IPC: G05B13/04

Abstract: 本发明涉及追捕技术分析技术领域，具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。

2.

发明授权
用于形成追捕策略的强化学习模型训练方法和训练装置有权

公开(公告)号：CN114779631B

公开(公告)日：2024-07-23

申请号：CN202210278558.0

申请日：2022-03-21

Applicant: 鹏城实验室

Inventor： 邢介邦 , 丁玉隆 , 崔金强 , 孙涛 , 宋伟伟

IPC: G05B13/04

Abstract: 本发明涉及追捕技术分析技术领域，具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。

Patent Agency Ranking