一种自适应的随机多臂决策问题计算方法及其装置

    公开(公告)号:CN106886389A

    公开(公告)日:2017-06-23

    申请号:CN201710174634.2

    申请日:2017-03-22

    Applicant: 苏州大学

    Inventor: 周倩 章晓芳 章鹏

    CPC classification number: G06F7/50 G06F7/582

    Abstract: 本发明公开了一种自适应的随机多臂决策问题计算方法及其装置,包括初始化每个动作的估计值和选择次数;依据各个动作的估计值和选择次数,确定估计值最小的动作的选择次数m;按照w/(w+m2)的概率进行探索,1‑w/(w+m2)的概率进行利用;w为预设算法参数,探索操作为从当前选择次数最少的动作中随机选取一个动作作为下一时间步的动作,利用操作为选择当前估计值最大的动作作为下一时间步的动作;下一时间步的动作选择完成后,生成随机奖赏;依据随机奖赏及所选择的动作更新各个动作的估计值及选择次数,重新确定m,直至全部动作完成后,统计预设最大时间步内得到的随机奖赏之和,得到累积奖赏。本发明能够均衡探索和利用的选择,并保证最终的决策效果,且适用范围广泛。

Patent Agency Ranking