基于联邦多智能体强化学习的车联网边缘资源分配方法

    公开(公告)号:CN114980123B

    公开(公告)日:2025-04-25

    申请号:CN202210395450.X

    申请日:2022-04-15

    Abstract: 本发明公开了一种基于联邦多智能体强化学习的车联网边缘资源分配方法,具体为:输入车联网环境,初始化智能体本地Q网络和联邦网络参数,并对优化问题建模;根据智能体能否获得奖励分为α、β两类,在当前时隙内两类车辆智能体分别观测本地状态并输入Q网络的;对Q网络输出进行加密处理,并通过联邦网络输出两类车辆智能体的联合动作决策;之后α车辆智能体得到系统反馈的全局奖励,同时缓存池存储当前时隙的样本数据;当样本数量足够时,α型和β型车辆智能体分别更新本地Q网络以及联邦网络的参数;当前训练回合结束后,重置车联网环境,开始下一个回合的训练。本发明在隐私保护的前提下提升了车联网连通性,同时降低了切换开销以及能量损耗。

    基于联邦多智能体强化学习的车联网边缘资源分配方法

    公开(公告)号:CN114980123A

    公开(公告)日:2022-08-30

    申请号:CN202210395450.X

    申请日:2022-04-15

    Abstract: 本发明公开了一种基于联邦多智能体强化学习的车联网边缘资源分配方法,具体为:输入车联网环境,初始化智能体本地Q网络和联邦网络参数,并对优化问题建模;根据智能体能否获得奖励分为α、β两类,在当前时隙内两类车辆智能体分别观测本地状态并输入Q网络的;对Q网络输出进行加密处理,并通过联邦网络输出两类车辆智能体的联合动作决策;之后α车辆智能体得到系统反馈的全局奖励,同时缓存池存储当前时隙的样本数据;当样本数量足够时,α型和β型车辆智能体分别更新本地Q网络以及联邦网络的参数;当前训练回合结束后,重置车联网环境,开始下一个回合的训练。本发明在隐私保护的前提下提升了车联网连通性,同时降低了切换开销以及能量损耗。

    一种基于贝叶斯Q学习的无人机集群网络智能跳频方法

    公开(公告)号:CN113382381B

    公开(公告)日:2022-08-30

    申请号:CN202110596287.9

    申请日:2021-05-30

    Abstract: 本发明公开了一种基于贝叶斯Q学习的无人机集群网络智能跳频方法,该方法采用Myopic‑VPI决策策略选择无人机集群上行链路的无线信道,在无人机和干扰机均处于未知移动状态的场景下实现对干扰信道的规避;同时在基于对信道环境的数据观测下,运用矩更新方法,逐步修正基于高斯‑伽马分布模型的Q值分布,最终学习到干扰机的干扰策略并智能选择可用的传输信道,最大程度上降低干扰。本发明针对无人机集群网络分别处于单音随机干扰、多音扫频干扰和马尔科夫干扰三种场景下,通过无人机自主交互的协同认知能力规避干扰,实现智能抗干扰通信;相较于传统Q学习能够更快地学习到最优的跳频方法,有效提升了信息传输速率且降低了功率消耗。

    基于多智能体深度强化学习的异构车联网用户关联方法

    公开(公告)号:CN114449482B

    公开(公告)日:2024-05-14

    申请号:CN202210242124.5

    申请日:2022-03-11

    Abstract: 本发明公开了一种基于多智能体深度强化学习的异构车联网用户关联方法,该方法先将问题建模成部分可观察马尔可夫决策过程,再采用分解团队值函数的思想,具体包括建立集中式训练分布式执行框架,将团队值函数与各个用户值函数利用求和连接起来,以达到隐性训练用户值函数的目的;接着本发明亦借鉴经验回放以及目标网络机制,使用ε‑greedy策略进行动作的探索与选择,利用循环神经网络储存历史信息,并且选择Huber损失函数来计算损失同时进行梯度下降,最终学习到异构车联网用户的关联策略。本发明在异构车联网环境下,相较于多智能体独立深度Q学习算法和其它传统算法,可以更加有效地同时提高能量效率和降低切换开销。

    一种基于贝叶斯Q学习的无人机集群网络智能跳频方法

    公开(公告)号:CN113382381A

    公开(公告)日:2021-09-10

    申请号:CN202110596287.9

    申请日:2021-05-30

    Abstract: 本发明公开了一种基于贝叶斯Q学习的无人机集群网络智能跳频方法,该方法采用Myopic‑VPI决策策略选择无人机集群上行链路的无线信道,在无人机和干扰机均处于未知移动状态的场景下实现对干扰信道的规避;同时在基于对信道环境的数据观测下,运用矩更新方法,逐步修正基于高斯‑伽马分布模型的Q值分布,最终学习到干扰机的干扰策略并智能选择可用的传输信道,最大程度上降低干扰。本发明针对无人机集群网络分别处于单音随机干扰、多音扫频干扰和马尔科夫干扰三种场景下,通过无人机自主交互的协同认知能力规避干扰,实现智能抗干扰通信;相较于传统Q学习能够更快地学习到最优的跳频方法,有效提升了信息传输速率且降低了功率消耗。

    基于多智能体深度强化学习的异构车联网用户关联方法

    公开(公告)号:CN114449482A

    公开(公告)日:2022-05-06

    申请号:CN202210242124.5

    申请日:2022-03-11

    Abstract: 本发明公开了一种基于多智能体深度强化学习的异构车联网用户关联方法,该方法先将问题建模成部分可观察马尔可夫决策过程,再采用分解团队值函数的思想,具体包括建立集中式训练分布式执行框架,将团队值函数与各个用户值函数利用求和连接起来,以达到隐性训练用户值函数的目的;接着本发明亦借鉴经验回放以及目标网络机制,使用ε‑greedy策略进行动作的探索与选择,利用循环神经网络储存历史信息,并且选择Huber损失函数来计算损失同时进行梯度下降,最终学习到异构车联网用户的关联策略。本发明在异构车联网环境下,相较于多智能体独立深度Q学习算法和其它传统算法,可以更加有效地同时提高能量效率和降低切换开销。

Patent Agency Ranking