非平稳环境中去中心化多智能系统的决策方法

    公开(公告)号:CN112668721B

    公开(公告)日:2021-07-02

    申请号:CN202110286015.9

    申请日:2021-03-17

    Abstract: 本发明提供非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。

    在多任务数据流中持续学习的方法及装置

    公开(公告)号:CN112698933A

    公开(公告)日:2021-04-23

    申请号:CN202110312417.1

    申请日:2021-03-24

    Inventor: 张俊格 李庆明

    Abstract: 本发明提供通用的在多任务数据流中持续学习的方法和装置,包括:智能体采用DQN网络进行策略学习,由任务识别器检测任务边界,防止发生灾难性遗忘;任务识别器采集数据状态,采集到一定长度后进入任务学习阶段,通过任务学习阶段的聚类准确性判断任务学习是否完成,如果完成进入任务识别阶段,如果判定任务发生了改变,则学习下一个任务,在学习下一个任务时,如果改变所述DQN网络的参数,将会启动额外的惩罚项,通过约束所述DQN网络的参数在下个任务学习中变化实现对当前任务的不遗忘。

    通用的非平稳环境中去中心化多智能系统的决策方法

    公开(公告)号:CN112668721A

    公开(公告)日:2021-04-16

    申请号:CN202110286015.9

    申请日:2021-03-17

    Abstract: 本发明提供通用的非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。

Patent Agency Ranking