-
公开(公告)号:CN115907254A
公开(公告)日:2023-04-04
申请号:CN202211471616.8
申请日:2022-11-23
Applicant: 东北大学
IPC: G06Q10/047 , G06Q10/0835 , G06F30/27 , G06N3/006 , G06F111/06
Abstract: 本发明提供一种基于进化的多目标强化学习的车辆路线规划方法,涉及路径规划技术领域。该方法将多目标车辆路线规划问题建模为马尔可夫决策过程,通过MMPPO与物流系统环境的交互来学习一组帕累托最优车辆路线策略;从预热阶段开始,随机产生多个学习任务并执行MMPPO来产生后代群体;每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略;预热阶段结束后,进入进化阶段,任务总体和外部帕累托存档都将基于后代群体进行更新,再从任务总体中为每个权重向量选择多个新的学习任务。在MMPPO算法收敛时输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡,决策者可以选择符合当前偏好的方案。
-
公开(公告)号:CN119105550A
公开(公告)日:2024-12-10
申请号:CN202411330172.5
申请日:2024-09-24
Applicant: 东北大学
IPC: G05D1/695 , G05D109/20
Abstract: 本发明提供一种基于自动编码器的多无人机路径规划和功率分配方法,涉及无人机技术领域。本发明研究了多无人机场景下的功率分配和路径规划问题,目的是最大化随机用户环境中用户设备的平均数据传输速率。为此,本发明提出了一个面向分散式多智能体环境的深度强化学习框架,为无人机自主协作提供了解决方案。该框架基于自动编码器使用自监督的表示学习任务来学习无人机的共同通信基础,在此基础上,无人机可以理解并传达彼此观测到的信息,提升了无人机在受限观测条件下的信息获取能力。这种方法适用于完全分散执行的体系结构,并且不需要额外的辅助信息,实现了无人机之间高效的信息传递和交流,从而有效地提高了无人机网络的服务效率。
-
公开(公告)号:CN118195457A
公开(公告)日:2024-06-14
申请号:CN202410305490.X
申请日:2024-03-18
Applicant: 东北大学
IPC: G06Q10/0835 , G06N3/092 , G06F18/20
Abstract: 本发明提供一种基于偏好驱动的多目标强化学习的车辆路线规划方法,涉及车辆规划以及深度强化学习技术领域。本发明通过将问题建模为马尔科夫决策过程,引入了偏好向量,从而赋予决策者更灵活的决策空间,通过与物流系统环境的交互,学习一组帕累托最优的车辆路径策略,采用多维插值器对偏好向量进行投影,以进行偏好向量空间的归一化处理,提高了算法的收敛性,引入余弦相似项,用于度量偏好的相似程度,确保在学习过程中偏好的一致性和对齐性,这种算法不仅提供解决MOVRP问题的路径方案,还考虑了决策者对多个目标的个性化偏好,个性化的车辆路径规划方案将能够更好地适应不同决策者和物流环境的需求,提高整体效率与用户满意度。
-
公开(公告)号:CN117493007A
公开(公告)日:2024-02-02
申请号:CN202311518675.0
申请日:2023-11-15
Applicant: 东北大学
IPC: G06F9/50 , G06F18/20 , G06N3/0464
Abstract: 本发明提供一种面向用户的基于部分可观测信息的服务迁移决策方法,涉及移动边缘计算技术领域。该方法首先确定移动边缘计算系统模型,并明确服务迁移决策问题的目标;再基于服务质量模型和服务迁移开销模型构建服务迁移决策问题的数学模型;然后将服务迁移决策优化问题建模为部分可观测马尔可夫决策过程;最后基于变分循环神经网络与深度强化学习的VLM‑DSAC模型来求解部分可观测马尔可夫决策过程,确定最优的服务迁移方案。该方法能够基于用户可以直接观测的部分环境状态信息,实现最优化服务质量同时最小化服务迁移开销的服务迁移决策。
-
-
-