一种基于多智能体强化学习的时延容忍网络路由算法

    公开(公告)号:CN112867083A

    公开(公告)日:2021-05-28

    申请号:CN202011588326.2

    申请日:2020-12-29

    Abstract: 本发明公开一种基于多智能体强化学习的时延容忍网络路由算法,其特征在于,步骤包括:一、将时延容忍网络节点进行Louvian分簇算法,提出了一种集中式加分布式的分层架构;二、结合正社会特性将DTN节点选择下一跳问题建模为分布式部分可观测马尔科夫决策过程(Dec‑POMDP)模型;与现有技术相比,本专利技术方案对比现有的基于社会属性的时延容忍网络路由方案,提出了一种分层架构,能够方便地捕捉边缘设备的社会信息;一方面分布式地执行计算中心下发的路由决策,另一方面在计算中心根据服务单元传来的状态集中式地训练路由算法。能够更有效地利用社会特性进行时延容忍网络中的路由转发,使得投递率提高和平均时延降低。

    一种基于多智能体强化学习的网内服务功能部署方法

    公开(公告)号:CN112769594A

    公开(公告)日:2021-05-07

    申请号:CN202011470782.7

    申请日:2020-12-14

    Abstract: 本发明公开了一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:S1、每个参与者分别更新策略π的参数;S2、每个评论家分别更新动作Q值参数;S3、定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略;S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义;S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:S6、定义来表示第i个agent的策略对第j个agent策略的函数近似,它的近似代价是一个带有熵正则化器的对数代价函数。本发明能够综合分布式和集中式方法的优点,既能够快速反应用户需求,保护用户隐私,提高用户服务体验。又能够考虑服务提供商运营成本,促使网络负载均衡,提高网络资源利用率。

    一种面向最大效用的无人集群数据按需共享方法及装置

    公开(公告)号:CN119653426A

    公开(公告)日:2025-03-18

    申请号:CN202510168695.2

    申请日:2025-02-17

    Abstract: 本发明提供了一种面向最大效用的无人集群数据按需共享方法及装置,涉及无人机通信的技术领域,该方法基于迭代双边拍卖的内容共享激励机制构建无人机命名数据网络中的内容分配模型、每个内容消费者的出价模型和每个内容生产者的要价模型,在获取到每个内容消费者的当前出价向量和每个内容生产者的当前要价向量之后,应用上述模型求解出每个内容消费者的当前内容需求向量、更新后的出价向量和每个内容生产者的当前内容供应向量,以及更新后的要价向量,通过迭代更新,直至出价向量和要价向量达到预设收敛条件。上述模型的应用能够有效地鼓励内容生产者参与数据市场,进而缓解了现有无人机命名数据网络存在的数据共享活跃度差的技术问题。

    一种多策略池的星地网络快速调度与资源分配方法和装置

    公开(公告)号:CN117580106B

    公开(公告)日:2024-04-05

    申请号:CN202410057576.5

    申请日:2024-01-16

    Abstract: 本发明提供了一种多策略池的星地网络快速调度与资源分配方法和装置,涉及通信的技术领域,包括:获取星地融合网络中目标用户终端的策略池;基于所有用户终端的当前任务调度策略,确定星地融合网络中所有卫星当前的资源分配策略和目标用户终端当前的效用函数值;计算目标用户终端选择策略池中的指定任务调度策略时,更新后的资源分配策略和效用函数值;若更新后的效用函数值大于当前的效用函数值,则调整为指定任务调度策略;否则,维持当前任务调度策略;在确定所有用户终端完成预设轮次的策略间效用函数值比较之后,得到目标任务调度策略和目标资源分配策略。为星地融合网络中用户‑卫星‑云平台架构下的任务调度与资源分配提供了解决方案。

    一种多策略池的星地网络快速调度与资源分配方法和装置

    公开(公告)号:CN117580106A

    公开(公告)日:2024-02-20

    申请号:CN202410057576.5

    申请日:2024-01-16

    Abstract: 本发明提供了一种多策略池的星地网络快速调度与资源分配方法和装置,涉及通信的技术领域,包括:获取星地融合网络中目标用户终端的策略池;基于所有用户终端的当前任务调度策略,确定星地融合网络中所有卫星当前的资源分配策略和目标用户终端当前的效用函数值;计算目标用户终端选择策略池中的指定任务调度策略时,更新后的资源分配策略和效用函数值;若更新后的效用函数值大于当前的效用函数值,则调整为指定任务调度策略;否则,维持当前任务调度策略;在确定所有用户终端完成预设轮次的策略间效用函数值比较之后,得到目标任务调度策略和目标资源分配策略。为星地融合网络中用户‑卫星‑云平台架构下的任务调度与资源分配提供了解决方案。

    基于QMIX的分布式网内拥塞控制方法

    公开(公告)号:CN113315715B

    公开(公告)日:2024-01-05

    申请号:CN202110370309.X

    申请日:2021-04-07

    Abstract: 本发明涉及一种基于QMIX的分布式网内拥塞控制方法,本发明通过直接将相关方法部署在网内的三层交换机中,进行数据包的调度与拥塞控制来克服上述传统技术的缺点,同时进一步提升了拥塞控制效果。本发明受到近年来,多智能体系统控制领域中的分布式强化学习方法的启发,采用多智能体强化学习方法中的集中式训练,分布式执行的算法框架,将QMIX算法直接在交换机内部实现,在快速响应毫秒级流量波动的同时,又做到了各交换机之间的协调控制,从而达到稳定的全局最优系统状态,进行网络拥塞控制。利用日趋成熟的多智能体深度强化学习方法来解决传统网络拥塞问题。(56)对比文件高少华.基于深度强化学习的TCP拥塞控制机制研究.信息科技.2021,(第4期),全文.王亚东;张悦;陈延祥;张宇.命名数据网络中的一种主动拥塞控制机制研究.载人航天.2020,(第01期),全文.肖扬;吴家威;李鉴学;刘军.一种基于深度强化学习的动态路由算法.信息通信技术与政策.2020,(第09期),全文.

    无人集群智能模型训练方法、装置和电子设备

    公开(公告)号:CN115329985B

    公开(公告)日:2023-10-27

    申请号:CN202211087378.0

    申请日:2022-09-07

    Abstract: 本发明提供了一种无人集群智能模型训练方法、装置和电子设备,涉及通信的技术领域,该方法将无人集群的训练划分为簇内集中式联邦学习和簇间分布式联邦学习两个阶段,簇内集中式学习时,簇头作为模型所有者来和簇内节点进行参数传递,并进行模型聚合,从而缓解了传统的集中式联邦学习方式存在的通信拥塞和计算瓶颈的技术问题;并且,簇间分布式学习时,由于只有邻居簇头间进行参数传输和模型聚合,所以与传统分布式联邦学习相比,本发明还能有效地减少通信能耗。

    无人机集群服务功能链动态配置方法和装置

    公开(公告)号:CN116614377A

    公开(公告)日:2023-08-18

    申请号:CN202310890312.3

    申请日:2023-07-20

    Abstract: 本发明提供了一种无人机集群服务功能链动态配置方法和装置,涉及无人机通信技术领域,本发明所使用的目标神经网络模型采用按需协作通信方式进行服务功能链动态部署,对不同队友建立不同队友模型,相比于现有的广播式通信算法或点对点式通信方式,按需通信的方式下,无人机之间传送不同的激励信息,且每个无人机的Q值都要加入其他无人机发送的激励信息,也即,每个无人机在动作选取时都受其余无人机的激励信息影响,并且按需通信还能减少信令的开销,因此,在利用本发明方法对服务功能链进行动态配置时可以加快收敛速度,提高算法收敛性,使无人机集群网络延迟保持在较低水平。

Patent Agency Ranking