-
公开(公告)号:CN116156565A
公开(公告)日:2023-05-23
申请号:CN202310140379.5
申请日:2023-02-20
Applicant: 重庆邮电大学
IPC: H04W28/08 , H04L41/0823 , H04L41/0826 , H04L41/0894 , H04L41/0895 , H04L41/40 , H04L41/16
Abstract: 本发明涉及一种基于多智能体近端策略优化的SFC可靠部署方法,属于移动通信技术领域。该方法包括以下步骤:S1:设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的随机优化问题,并将该问题转化为马尔科夫决策过程模型;S3:采用KL散度方法来保证优化在置信域中完成,再进一步地通过策略比例裁剪来实现信任域约束;S4:在多智能体系统中,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
-
公开(公告)号:CN116112938A
公开(公告)日:2023-05-12
申请号:CN202211467664.X
申请日:2022-11-22
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于多智能体强化学习的SFC部署方法,属于移动通信技术领域。该方法包括以下步骤:S1:在网络功能虚拟化的场景下,设计基于节点容量比例的超载惩罚机制,对节点进行预留监控并施加过度使用的惩罚,建立网络超载惩罚、端到端平均时延和部署成本最小化的数学模型,将服务功能链部署优化问题转化为马尔科夫决策过程求解;S2:建立基于用户分工的多智能体业务编排方案,多智能体框架遵循集中式训练与分布式执行的策略;S3:设计带多个注意力头部的中央注意力机制,将关注于不同子空间的信息联合;S4:各决策者采用柔性演员‑评论家算法,基于最大熵的强化学习框架,提高智能体的探索性和鲁棒性。
-