-
公开(公告)号:CN110633802A
公开(公告)日:2019-12-31
申请号:CN201910388236.X
申请日:2019-05-10
Applicant: 株式会社日立制作所
IPC: G06N20/00
Abstract: 本发明提供在存在多样指标的环境中根据状况来搜索优选的策略的策略搜索装置、方法及记录介质。其中,执行将以下的一系列处理反复进行多次的情节:基于表示针对对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟对象环境的状态转变,取得转变后的对象环境的状态和由第1指标表示的与所适用的行动对应的报酬,基于状态和报酬将价值函数更新。并且,储存第2指标满足规定的条件的情节;基于储存的情节对价值函数进行改善;反复进行从情节的执行到价值函数的改善的一系列的处理,直到满足规定的结束条件;提示基于得到的价值函数决定的策略。
-
公开(公告)号:CN112966806A
公开(公告)日:2021-06-15
申请号:CN202110147006.1
申请日:2019-05-10
Applicant: 株式会社日立制作所
IPC: G06N3/02 , G06N20/00 , G06F16/9536
Abstract: 本发明提供处理装置、处理方法以及记录介质。处理装置具备:第1处理部,进行对对象环境适用了规定的行动时的状态转变的模拟,计算状态转变后的上述对象环境的状态、以及利用第1指标求出的对所适用的上述行动的评价值;以及第2处理部,基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动并输入至上述第1处理部,并且基于由上述第1处理部计算出的上述状态和上述评价值,更新上述价值函数;在上述第2处理部中,基于第2指标,选定上述第1处理部中的模拟结果,并且基于所选定的模拟结果和上述价值函数,决定策略。
-