-
公开(公告)号:CN119202730A
公开(公告)日:2024-12-27
申请号:CN202411717226.3
申请日:2024-11-27
Applicant: 之江实验室
IPC: G06F18/214 , G06F18/2431 , G06F18/22 , G06N20/00
Abstract: 本说明书公开了一种游戏决策模型训练方法、装置、存储介质及电子设备,获取样本玩家的历史游戏视频,对历史游戏视频进行数据提取,确定指定时间段内样本玩家的游戏数据,并作为训练样本,以及确定在训练样本对应的游戏状态下样本玩家执行的决策对应的第一决策信息,并作为训练样本的第一标注。确定训练样本对应的第一提示文本,并将第一提示文本和训练样本输入通用大语言模型,确定通用大语言模型输出的第一信息。将第一标注和第一信息作为训练样本的第二标注,根据训练样本和第二标注,对待训练的游戏决策模型进行训练,以使得训练完成的游戏决策模型可用于根据待决策玩家的游戏数据,确定游戏决策,提高了游戏决策的生成速度以及准确性。
-
公开(公告)号:CN117236416A
公开(公告)日:2023-12-15
申请号:CN202311498497.X
申请日:2023-11-13
Applicant: 之江实验室
Abstract: 本发明公开了一种大语言模型交互方法和装置,该方法提出一种新的规划者‑协调者‑执行者的大语言模型交互框架,其中,大语言模型作为规划者,智能体作为执行者,新增的协调者可以确定何时请求与规划者通信,并将执行者当前的观测数据转化成规划者可以理解的自然语言形式的文本字符串,协调者可通过基于无效通信惩罚的强化学习预训练,实施最优通信策略。本发明通过实施最优通信策略可以在正式部署到测试环境后显著减少与规划者的通信次数,同时协调者能够在规划者容易出错的场景下减少对规划者的依赖,以及在面对突发情况时及时求助于规划者,提高了执行者的安全性与任务成功率。
-