-
公开(公告)号:CN108970119A
公开(公告)日:2018-12-11
申请号:CN201810778924.2
申请日:2018-07-16
Applicant: 苏州大学 , 网易(杭州)网络有限公司
Abstract: 本发明公开了一种基于基于优先级值迭代网络的难度自适应游戏系统策略规划方法。该游戏系统由两部分构成:用于进行图像特征信息提取的卷积神经网络和用于进行策略泛化处理的优先级值迭代网络。该系统可嵌入至任意对抗类游戏中,当玩家开始游戏前,会从系统的难度系数中选择某一等级的对抗机器人(Adversarial Non-personal Character,A-NPC)。根据选定的难度系数,系统会从服务器的数据库中获取相应难度的玩家样本策略信息,并在服务器端根据玩家样本策略信息进行模仿学习,得到优先级值迭代网络的参数。该参数在游戏载入时传送至客户端。
-
公开(公告)号:CN107292392B
公开(公告)日:2019-11-22
申请号:CN201710329549.9
申请日:2017-05-11
Applicant: 苏州大学
Abstract: 本发明公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。
-
公开(公告)号:CN107292392A
公开(公告)日:2017-10-24
申请号:CN201710329549.9
申请日:2017-05-11
Applicant: 苏州大学
Abstract: 本发明公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。
-
-