一种基于深度强化学习的环境自适应竞价方法

    公开(公告)号:CN118552292A

    公开(公告)日:2024-08-27

    申请号:CN202410591039.9

    申请日:2024-05-13

    Applicant: 东北大学

    Abstract: 本发明公开了一种基于深度强化学习的环境自适应竞价方法,涉及竞价领域。该方法采取层次化方式对竞价场景进行建模;竞价阶段开始时上层智能体基于离散型强化学习方法选择适合在当前竞价阶段完成竞价的下层智能体;被选中的下层智能体基于连续型强化学习方法完成当前竞价阶段内的每一次竞价,将每次竞价得到的数据保存至该下层智能体的经验回放池中,并判断每次竞价得到的数据是否加入其他下层智能体的经验回放池中;根据预定的竞价阶段结束判断条件判断当前竞价阶段结束时,计算上层智能体获得的奖励,将在当前竞价阶段得到的数据增加至上层智能体的经验回放池中;对上层智能体和N个下层智能体进行训练,将训练好的上下层智能体用于竞价活动。

Patent Agency Ranking