基于多智能体强化学习框架的用户资源调度方法、系统及存储介质

    公开(公告)号:CN118036938A

    公开(公告)日:2024-05-14

    申请号:CN202410074340.2

    申请日:2024-01-18

    Abstract: 本发明涉及一种基于多智能体强化学习框架的用户资源调度方法、系统及存储介质,方法包括:将目标应用场景形式化,构建资源调度的基本模式;使用基于离散时间序列的状态机思想描述用户工作逻辑,作为调度算法运作的基础;构建强化学习算法框架,为强化学习智能体定义标准化的观测空间;强化学习智能体依据观测指标,在动作空间中做出决策,计算奖励函数;基于表演者‑批评家框架,设计与智能体观测空间相匹配的策略函数和价值函数;完成决策模型训练与部署,进行用户资源调度。本发明可以更智能化地应对复杂的资源调度场景,在优势用户和劣势用户之间合理分配资源,确保资源总利用率基本不变的前提下,大幅提高资源调度的公平性。

Patent Agency Ranking