一种基于上下文多臂机与深度强化学习的无线边缘缓存动态优化策略

    公开(公告)号:CN119497152A

    公开(公告)日:2025-02-21

    申请号:CN202411508655.X

    申请日:2024-10-28

    Abstract: 本发明公开一种基于上下文多臂机与深度强化学习的无线边缘缓存动态优化策略,属于人工智能与边缘计算交叉技术领域。本发明步骤:①智慧交通场景中从基站向主基站发送从基站缓存中已缓存内容的缓存状态索引集sk;②通过DRL,主基站能够根据当前k时期的缓存状态值sk和预期折现奖励函数Q(sk,ak;θk)决定将执行的行动ak,从而得到最优的缓存替换策略#imgabs0#③从基站根据#imgabs1#对已缓存内容集进行更新;④从基站用CMAB算法,提取并分析用户及缓存信息的特征信息,计算每个内容的预测奖励UCB。选择使UCB值最大的内容对应的请求队列进行组播。接收用户反馈的实际奖励后,更新模型参数,以动态调整组播内容。该方法确保用户获取最新内容,提高数据实时处理能力并避免提供陈旧数据。

Patent Agency Ranking