-
公开(公告)号:CN116384478A
公开(公告)日:2023-07-04
申请号:CN202310310524.X
申请日:2023-03-28
Applicant: 南京邮电大学
Abstract: 本发明提供了一种基于区块链的可控进化强化学习方法及系统,主要包括以下步骤:获取约束数据;使用区块链储存约束数据和当前策略;使用约束策略优化方法将约束数据转化为策略空间的约束边界;使用历史梯度引导的进化强化学习方法,应用处理后的策略空间进行训练,在每次做出决策后使用自适应场景阈值比较机制,如出现危险行为时,则重新作出决策;使用区块链对策略参数进行回溯;使用区块链储存约束数据和当前策略。本发明通过对人工输入的约束的有效转化,简化每次都需要为特定的场景设计特定的奖励函数,以此达到可控。