-
公开(公告)号:CN117880199A
公开(公告)日:2024-04-12
申请号:CN202311676539.4
申请日:2023-12-08
Applicant: 北京邮电大学
Abstract: 本申请提供一种网络拥塞控制模型训练方法、控制方法及训练装置,所述训练方法包括:基于预设的网络强化学习步骤迭代训练一演员网络和评论家网络,以得到用于输出针对数据流的多个网络状态进行调整的各个动作的网络拥塞控制模型;网络强化学习步骤包括:获取多个网络状态以及各个网络状态各自对应的目标动作;计算各个网络状态各自对应的奖励对当前的评论家网络进行迭代更新,直至更新次数满足预设的更新次数阈值后停止更新,以得到目标评论家网络;更新演员网络、第一网络、第二网络。本申请能够对多应用场景下的网络拥塞进行优化,有效提高多场景网络拥塞控制的普适性,以及提升不同数据流占用网络资源的平衡性。