-
公开(公告)号:CN114125031B
公开(公告)日:2022-06-21
申请号:CN202210104440.6
申请日:2022-01-28
Applicant: 南湖实验室
Inventor: 刘文斌 , 葛品 , 栾绍童 , 方文其 , 金新竹 , 沈源源 , 缪正元 , 辛全 , 张晨焘 , 黄琮凯 , 庄正浩 , 胡董墨 , 戴迎枫 , 袁洪亮 , 张雅妮 , 闫顼 , 项杰予
IPC: H04L67/146 , H04L67/52 , H04L12/18
Abstract: 本发明公开了一种基于互联网区域联动的广播应答方法及其系统,包括以下步骤:S1.应用服务器注册于终端服务器;用户终端注册于应用服务器,且用户终端通过相应的应用服务器加入至终端服务器;S2.终端服务器接收应用服务器/用户终端的广播报文,并根据广播报文进行本区域广播应答和/或跨区域广播应答。各应用系统下的用户终端通过相应的应用服务器加入至终端服务器,用户终端之间因此能够通过终端服务器进行互通,满足具有封闭性独立性要求的各系统之间因业务需要进行信息交互的需求,同时无需对各独立系统进行升级改造,也无需进行线下协调。
-
公开(公告)号:CN114492215A
公开(公告)日:2022-05-13
申请号:CN202210404483.6
申请日:2022-04-18
Applicant: 南湖实验室
Abstract: 本发明公开了一种利用策略模型辅助训练的GP世界模型及其训练方法,该GP世界模型包括用于训练世界模型的损失函数,所述的损失函数包括第一损失函数和第二损失函数,所述的第一损失函数为GP世界模型的自有损失函数,所述第二损失函数为策略模型的损失函数,训练方法包括:S1.世界模型利用损失函数更新模型参数;S2.策略模型利用损失函数更新模型参数,并保存本次训练中每一步的;S3.对取平均值作为后代入,用于下一次世界模型的训练。本发明提出通过策略模型辅助训练GP世界模型方法的训练机制,能够利用策略训练的稳定性来达到调制训练世界模型的目的,从而提高世界模型的训练效果和性能。
-
公开(公告)号:CN114125031A
公开(公告)日:2022-03-01
申请号:CN202210104440.6
申请日:2022-01-28
Applicant: 南湖实验室
Inventor: 刘文斌 , 葛品 , 栾绍童 , 方文其 , 金新竹 , 沈源源 , 缪正元 , 辛全 , 张晨焘 , 黄琮凯 , 庄正浩 , 胡董墨 , 戴迎枫 , 袁洪亮 , 张雅妮 , 闫顼 , 项杰予
IPC: H04L67/146 , H04L67/52 , H04L12/18
Abstract: 本发明公开了一种基于互联网区域联动的广播应答方法及其系统,包括以下步骤:S1.应用服务器注册于终端服务器;用户终端注册于应用服务器,且用户终端通过相应的应用服务器加入至终端服务器;S2.终端服务器接收应用服务器/用户终端的广播报文,并根据广播报文进行本区域广播应答和/或跨区域广播应答。各应用系统下的用户终端通过相应的应用服务器加入至终端服务器,用户终端之间因此能够通过终端服务器进行互通,满足具有封闭性独立性要求的各系统之间因业务需要进行信息交互的需求,同时无需对各独立系统进行升级改造,也无需进行线下协调。
-
公开(公告)号:CN114647986B
公开(公告)日:2023-08-08
申请号:CN202210404484.0
申请日:2022-04-18
Applicant: 南湖实验室
Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。
-
公开(公告)号:CN114647986A
公开(公告)日:2022-06-21
申请号:CN202210404484.0
申请日:2022-04-18
Applicant: 南湖实验室
Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。
-
-
-
-
-