带有引流机制的电动汽车充电站MARL动态定价方法

    公开(公告)号:CN118799003A

    公开(公告)日:2024-10-18

    申请号:CN202410777828.1

    申请日:2024-06-17

    Applicant: 东南大学

    Abstract: 本发明公开了一种带有引流机制的电动汽车充电站MARL动态定价方法。具体而言,本发明将充电站视为智能体,并构建了一个协作的多智能体强化学习(MARL)系统,旨在优化充电站的定价策略,实现充电网络长期收益和用户福利最大化。在设计用户偏好函数时,本发明充分考虑了充电站的拥堵等级,将其作为用户决策过程中的重要因素之一。为了更准确地预测每个充电站的拥堵等级,本发明采用了基于长短期记忆(LSTM)神经网络的车流量预测模型。此外,还引入了一种引流机制,根据充电网络中各个充电站的拥堵等级预测,将未得到服务的用户引导至拥堵程度较低的充电站,旨在优化用户流量的分配,以确保充电站之间资源的高效利用。

    一种基于动作空间安全映射的赛车强化学习自动驾驶方法

    公开(公告)号:CN117193293A

    公开(公告)日:2023-12-08

    申请号:CN202311057875.0

    申请日:2023-08-22

    Applicant: 东南大学

    Abstract: 一种基于动作空间安全映射的赛车强化学习自动驾驶方法,本发明采用的技术方案是使用神经网络建立赛车的自动驾驶控制器,输入赛车自身的运动状态数据和前方赛道的数据,输出对应的油门/刹车控制量和方向盘控制量。根据赛车的动力学模型,建立动作空间安全映射函数,将可能导致车辆进入危险状态的神经网络输出量转化为安全的控制量再输入赛车的控制系统。利用强化学习算法,根据奖励反馈信号对神经网络进行训练,不断更新神经网络参数,最终获得优化的赛车自动驾驶策略。

    一种基于SAC的多无人机辅助移动边缘计算方法、装置及存储介质

    公开(公告)号:CN117236561A

    公开(公告)日:2023-12-15

    申请号:CN202311293225.6

    申请日:2023-10-08

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于SAC的多无人机辅助移动边缘计算方法、装置及存储介质,属于移动边缘计算技术领域。所述方法包括:获取边缘计算系统中的基本要素信息;根据所述信息,建立无人机路径规划及资源分配的优化模型;将各无人机作为决策者,将无人机的观测作为状态,将无人机选择的路径规划及资源分配策略作为动作,基于预设的奖励函数和折扣因子,将所述优化模型转化为马尔科夫决策过程;各无人机利用预先训练的深度强化神经网络,基于实时观测信息对所述马尔科夫决策过程进行求解,得到优化后的无人机飞行轨迹及资源分配策略。本发明通过多无人机联合基站辅助地面用户边缘计算,策略优化以实现任务处理效率的提升、能耗分散及计算资源的节约。

    基于强化学习的规避静态恶意软件检测器的对抗攻击方法

    公开(公告)号:CN119249418A

    公开(公告)日:2025-01-03

    申请号:CN202411219418.1

    申请日:2024-09-02

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于强化学习的规避静态恶意软件检测器的对抗攻击方法,通过重新设计强化学习算法中智能体所使用的状态空间和行动空间,改善以往工作中对抗样本生成效率低的问题。首次将对抗样本功能是否保留的验证操作作为样本生成过程的一个组成部分纳入该框架,从而大大提高了验证效率。我们选择了多种当前流行的静态恶意软件检测器作为受害者模型,以评估攻击框架的有效性和鲁棒性。通过对检测器的可解释性和攻击结果的分析,阐明了这些检测器潜在的漏洞。最后,采用了一种基于迁移学习的策略提炼方法,以增强该框架攻击的泛化性。通过学习针对不同检测器训练后的专家智能体的知识,该框架针对不同类型的检测器均可以发起有效的攻击。

    基于内在好奇心机制的多无人机通信系统优化控制方法

    公开(公告)号:CN118647032A

    公开(公告)日:2024-09-13

    申请号:CN202410632869.1

    申请日:2024-05-21

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于内在好奇心机制的多无人机通信系统优化控制方法。目标是学习一种最优的多无人机集中控制策略,使无人机能够通过好奇心驱动的探索找到城市环境中的照明区域,并收集能量,持续稳定地为用户提供通信服务。首先,提出了一种基于强化学习RL的多无人机集中控制策略,以最大化累积通信服务分数。在提出的框架中,由内在好奇心模块ICM产生的好奇心奖励可以作为一种内部激励信号,允许无人机在没有任何先验知识的情况下探索环境。其次,提出了一种两阶段探索协议,便于实际实现。本发明的方法可以在开发密集型阶段获得更高的累计通信服务分数,获得更为准确的服务路径,并能很好地处理勘探‑开采的权衡。

    基于SafeRL的无人机辅助MEC系统的任务卸载与安全航行方法

    公开(公告)号:CN117131317A

    公开(公告)日:2023-11-28

    申请号:CN202311068460.3

    申请日:2023-08-23

    Applicant: 东南大学

    Inventor: 董璐 石祥沛 袁心

    Abstract: 本发明公开了一种基于SAC‑Lagrangian的新型任务卸载与安全航行方法,首先引入自适应惩罚系数将约束优化问题转化为无约束优化问题,而后联合优化用户调度、无人机移动性和资源分配策略。一方面,本发明能够充分利用无人机的计算能力,最小化一段时间内的传输延迟。另一方面,为了确保飞行的安全性,本发明通过优化无人机的飞行策略,尽量减少其在风险区域内的飞行时间。这种综合考虑用户需求、无人机安全和系统性能的方法,能够在保证飞行安全的前提下,实现系统任务时延的最小化;能够更便捷、有效地为智能终端设备提供计算和通信服务。

    基于SafeRL的无人机辅助MEC系统的任务卸载与安全航行方法

    公开(公告)号:CN117131317B

    公开(公告)日:2025-01-10

    申请号:CN202311068460.3

    申请日:2023-08-23

    Applicant: 东南大学

    Inventor: 董璐 石祥沛 袁心

    Abstract: 本发明公开了一种基于SafeRL的无人机辅助MEC系统的任务卸载与安全航行方法,首先引入自适应惩罚系数将约束优化问题转化为无约束优化问题,而后联合优化用户调度、无人机移动性和资源分配策略。一方面,本发明能够充分利用无人机的计算能力,最小化一段时间内的传输延迟。另一方面,为了确保飞行的安全性,本发明通过优化无人机的飞行策略,尽量减少其在风险区域内的飞行时间。这种综合考虑用户需求、无人机安全和系统性能的方法,能够在保证飞行安全的前提下,实现系统任务时延的最小化;能够更便捷、有效地为智能终端设备提供计算和通信服务。

    基于深度强化学习的无人机辅助MIMO通信系统高效传输方法

    公开(公告)号:CN118890078A

    公开(公告)日:2024-11-01

    申请号:CN202411200225.1

    申请日:2024-08-29

    Applicant: 东南大学

    Abstract: 本发明针对无人机辅助MIMO通信系统提出了一种高效传输联合优化方案,该方案将无人机轨迹设计、模拟波束成形和功率分配结合在一起,在缩短无人机服务时间的同时提高了用户的频谱效率。一方面,为了在动态环境中有效地获得波束成形矩阵和功率分配矩阵,在传统的PSO算法中引入了基于近端策略优化(PPO)的敏感粒子(SP)结构和粒子群优化(PSO)参数自适应调整方法,目的是提高PSO算法在解决动态函数问题时的收敛性能。另一方面,设计了基于第二目标点的避障方案,旨在实现复杂环境下无人机的高效导航。仿真结果表明,所设计的方案在可行性和效率方面都有令人满意的表现。

    一种RIS辅助无人机通信的控制方法及相关装置

    公开(公告)号:CN119095057A

    公开(公告)日:2024-12-06

    申请号:CN202411125152.4

    申请日:2024-08-16

    Applicant: 东南大学

    Abstract: 本发明公开了一种RIS辅助无人机通信的控制方法及相关装置,本发明将无人机移动轨迹、无人机发射功率以及RIS相移偏转的联合优化问题转换成马尔科夫决策过程模型,采用改进的TD3算法求解更新后的模型,获得每个时步时的无人机移动控制指令和发射功率控制指令、以及RIS各元件的相移角控制指令,从而保证在严格的时间与能量限制下,实现无人机飞行路径合理安排、最大限度地提高通信吞吐量(即提供通信质量)和能源利用效率;本发明的采用改进的TD3算法求解模型,在传统TD3算法上引入PER技术,可以提高无人机对环境的探索与有效数据的利用,采用AO算法来优化RIS的离散相移角,利用提高无线信道环境质量。

Patent Agency Ranking