-
公开(公告)号:CN119784292A
公开(公告)日:2025-04-08
申请号:CN202411900442.1
申请日:2024-12-23
Applicant: 广东工业大学
IPC: G06Q10/087 , G06Q30/0601 , G06Q30/0201 , G06N3/092
Abstract: 本发明涉及供应链技术领域,公开了一种基于深度强化学习的供应链资源控制优化方法,包括:构建多阶段供应链环境;构建动作分解的软演员‑评论家智能体;使用所述多阶段供应链环境训练所述软演员‑评论家智能体,获得训练好的软演员‑评论家智能体;将所述训练好的软演员‑评论家智能体部署到目标供应链,输出最佳动作决策。本发明针对如需求波动、复杂的结构、高维的状态与动作空间以及复杂的奖励函数等问题,提出了一种基于深度强化学习智能体,该智能体通过使用特征提取模块和动作分解机制,使其能够通过分析历史生产订单需求和缺货记录来预测未来的市场趋势,并且基于实时的供应链库存数据,智能体能够动态地调整库存管理策略,有效应对供应链资源协同控制优化中的多种问题,有效减少库存积压和缺货风险,还提高供应链的响应速度和灵活性,最终实现整体运营效率的显著提升。