一种基于强化学习的定价、分配和重定位联合优化方法

    公开(公告)号:CN117934097A

    公开(公告)日:2024-04-26

    申请号:CN202410037143.3

    申请日:2024-01-10

    Inventor: 杨磊 张忠昀

    Abstract: 本发明公开了一种基于强化学习的定价、分配和重定位联合优化方法,包括:对系统进行建模,定义优化问题,包括目标、约束和决策变量;将优化问题转为多智能体情形下的部分可观测马尔科夫决策过程,确定观测、动作和奖励;基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的需求预测模型;部署多臂赌博机算法,收集定价记录,在线训练定价模型;部署SAC算法,收集司机轨迹经验,在线训练融合重定位的分配模型,穿插使用启发式算法产生的决策结果矫正训练方向。本发明考虑联合优化定价、订单分配和车辆重定位,基于关联强化学习和多智能体深度强化学习方法求解最优联合决策,能有效提高在线叫车平台的市场效率和乘客出行请求的完成数量。

Patent Agency Ranking