-
公开(公告)号:CN106296006A
公开(公告)日:2017-01-04
申请号:CN201610658485.2
申请日:2016-08-10
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06Q10/06
CPC classification number: G06Q10/0635 , G06Q10/0637
Abstract: 本发明提供了非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,包括如下步骤:步骤1:针对每个信息集,初始化其策略、估值和每个动作的遗憾值;步骤2:使用当前的策略进行博弈,直至完成本次博弈;步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;步骤4:根据遗憾匹配算法计算出新的策略;步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略;步骤6:返回步骤2,直至博弈过程终止。本发明设计了一种利用经济学中风险的概念,并研究风险模型的原理,结合最少遗憾算法,应用在非完备信息机器博弈中。在利用最少遗憾算法收益占优策略的同时,兼顾策略的风险,达到更为合理的纳什均衡。
-
公开(公告)号:CN106469317A
公开(公告)日:2017-03-01
申请号:CN201610835289.8
申请日:2016-09-20
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06N5/042 , A63F1/02 , A63F2001/005 , G06K9/6223 , G06K9/6267 , G06N3/04
Abstract: 本发明提供了一种基于非完备信息博弈中进行对手建模的方法,步骤1:德州扑克中的手牌评估;步骤2:非完备信息博弈中的对手建模;步骤3:扑克博弈系统的实现。本发明以德州扑克作为具体研究对象,通过将对手建模方法与手牌评估算法相结合实现了一个拥有较高智能水平的扑克博弈程序。
-
公开(公告)号:CN107038477A
公开(公告)日:2017-08-11
申请号:CN201710095895.5
申请日:2017-02-22
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法,步骤1:将非完备信息转换成部分可观测马尔科夫决策模型;步骤2:通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈;步骤3:采用基于前 n步的Q学习算法,神经网络与Q学习结合的算法以及基于上限置信区间算法UCT计算Q学习延迟回报的值;步骤4:将前一步骤得到的Q值融合,得到最终结果。本发明提出的技术方案可以应用到多种非完备信息博弈中,比如“斗地主”,德州扑克等,并提高了智能体的博弈水平。本发明与现有的相关研究相比,在精度上有了较大的提升。
-
-