-
公开(公告)号:CN114669056A
公开(公告)日:2022-06-28
申请号:CN202210329589.4
申请日:2022-03-31
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于逆向强化学习算法在斗地主中的应用。涉及游戏与深度强化学习领域。首先对采集专家数据,获得专家数据集;然后,根据逆向强化学习和专家数据,学习到新的奖励函数;将学习到的奖励函数替换DQN算法中的奖励函数进行训练,比较两种框架的实验结果,以此来验证逆向强化学习在斗地主中的应用是否合理;最后,在RLCard平台对两种框架进行同样时间的训练,进行对比来验证新框架的效果。本发明能够通过较少的数据得到不错的结果,降低了对数据量的需求,减少了训练时间。