基于大语言模型的行动方案生成模型的训练方法及装置

    公开(公告)号:CN118152528B

    公开(公告)日:2024-12-06

    申请号:CN202410222968.2

    申请日:2024-02-28

    Abstract: 本发明提供一种基于大语言模型的行动方案生成模型的训练方法及装置,其中方法包括:获取行动方案样本的背景信息,以及初始大语言模型;基于背景信息,以及通用大语言模型,构建行动方案样本的想定数据集;基于想定数据集,以及通用大语言模型,构建行动方案样本的问题数据集;基于问题数据集,以及通用大语言模型,构建行动方案样本的方案数据集;基于问题数据集以及方案数据集,对初始大语言模型进行训练,得到行动方案生成模型。本发明提供的方法,基于连续多阶段的数据集构建,提升了训练数据的全面性、准确性、可定制性。并通过构建得到的数据集对初始大语言模型进行微调训练,提升行动方案生成模型的准确性、可行性、实用性。

    用于兵棋推演的可扩展大规模博弈强化学习方法及装置

    公开(公告)号:CN118278494A

    公开(公告)日:2024-07-02

    申请号:CN202410489938.8

    申请日:2024-04-23

    Abstract: 本发明提供一种用于兵棋推演的可扩展大规模博弈强化学习方法及装置,涉及强化学习技术领域,所述方法包括:构建可扩展的大规模博弈兵棋推演对抗场景;确定强化学习的状态空间、动作空间和奖励构成;基于分组的注意力网络,将联合策略拆分为分组策略,进行博弈对抗中智能体的学习和训练。本发明提供的用于兵棋推演的可扩展大规模博弈强化学习方法及装置,将注意力机制引入多智能体问题中,增强模型在处理长序列观测状态时的学习能力,智能体间的协同关系会通过梯度的优化不断得到强化,最终使得整个协同任务的完成效率达到最大。

    状态值预测模型的训练方法及装置

    公开(公告)号:CN116468069A

    公开(公告)日:2023-07-21

    申请号:CN202310501183.4

    申请日:2023-05-06

    Abstract: 本发明公开了一种状态值预测模型的训练方法及装置。其中,该方法包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本发明解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。

    一种应用于兵棋推演的策略模型训练方法、装置及设备

    公开(公告)号:CN115577874A

    公开(公告)日:2023-01-06

    申请号:CN202211179903.1

    申请日:2022-09-27

    Abstract: 本发明实施例涉及人工智能领域,公开了一种应用于兵棋推演的策略模型训练方法、装置及设备。本发明实施例涉及的应用于兵棋推演的策略模型训练方法包括:分别获取第一策略模型和第二策略模型,第一策略模型来自第一种群池,第二策略模型来自第二种群池;调用第一策略模型与第二策略模型进行对战,得到第一对战结果,第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性;若第一对战结果大于第一预设阈值,则更新第一种群池中第一策略模型的被选概率。这样,双方策略模型对应的种群池随着训练不断优化更新,满足了双方策略模型对训练样本的数量以及多样性需求,以及避免了策略模型学习策略单一的情况。

    一种自动化软件测试方法、装置及设备

    公开(公告)号:CN114706790B

    公开(公告)日:2022-09-13

    申请号:CN202210515156.8

    申请日:2022-05-12

    Inventor: 徐博 崔小平 徐波

    Abstract: 本申请实施例涉及计算机领域,公开了一种自动化软件测试方法、装置及设备。本申请实施例涉及的软件测试方法包括:在应用场景中存在多个项目共用一个触发规则的情况下,获取项目测试需求;依据项目测试需求调用项目关系信息,得到至少一个目标项目关系信息;调用触发规则,得到目标触发规则;调用触发器启动软件测试,触发器设置在代码仓库与集成工具之间。这样,一方面,触发规则库中存入多种触发规则,并通过预设的项目关系库中项目关系信息,可以实现同一个触发器在不同场景对于不同触发规则的调用,提高了触发器对多应用场景的兼容性;第二方面,通过预设建立项目与触发规则标识的联系,实现对触发规则的数据化驱动,从而减少人工维护成本。

    一种多智能体学习方法、装置及设备

    公开(公告)号:CN114611664A

    公开(公告)日:2022-06-10

    申请号:CN202210171628.2

    申请日:2022-02-24

    Abstract: 本申请实施例涉及人工智能领域,公开了一种多智能体学习方法、装置及设备。本申请实施例涉及的多智能体学习方法包括:部署至少两个执行网络用于为智能体提供动作执行环境,每个执行网络对应一个智能体,基于智能体当前的状态特征调用执行网络得到对应的动作结果,并且,调用所有智能体的动作结果并与环境进行交互训练,检测交互训练的次数是否等于预设阈值,当各个智能体的交互训练次数等于预设阈值时,基于交互训练产生的训练结果对全部所述智能体进行训练。这样,在学习过程中,随着智能体数量增加,只需对分布执行网络进行扩展,智能体动作空间不会变的复杂,此降低了每个智能体动作空间以及决策空间的设计难度,提升了智能体的学习效率。

    一种策略模型训练方法、装置及设备

    公开(公告)号:CN114330754A

    公开(公告)日:2022-04-12

    申请号:CN202210206944.9

    申请日:2022-03-04

    Abstract: 本申请实施例涉及人工智能领域,公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括:分别获取第一策略模型以及第二策略模型对应的策略,并且,在对战学习过程中获取对战双方的对战结果,依照对战结果进行各自优势策略挑选,并将挑选出的优势策略用于后续对应策略群体的进化,以此往复循环,使对战双方策略模型对应的策略群不断有优势策略注入,这样不仅可以将己方智能体得到进化策略训练,同时也可以使对战方智能体得到进化策略训练,提升了博弈学习网络中策略模型的进化程度上限,使策略模型对策略多样的博弈场景适应性更强。

    一种虚拟对象的动作生成方法、装置及设备

    公开(公告)号:CN114053712A

    公开(公告)日:2022-02-18

    申请号:CN202210048175.4

    申请日:2022-01-17

    Abstract: 本发明公开了一种虚拟对象的动作生成方法、装置及设备,其中,所述方法包括:获取多个虚拟对象的特征信息,所述多个虚拟对象属于同一组;将所述多个虚拟对象的特征信息映射成一个总虚拟对象的特征信息;根据所述总虚拟对象的特征信息,获得所述多个虚拟对象中每个虚拟对象的第一策略动作;根据所述每个虚拟对象的第一策略动作,生成相应虚拟对象的第二策略动作;控制所述每个虚拟对象执行相应的所述第二策略动作。通过上述方式,本发明可以提高训练效率、简化操作流程,同时还可以实现智能控制多个虚拟对象动作的协同性,从而使一组的多个虚拟对象在对抗对手的过程中表现出动作之间的协同性,基于虚拟场景中的预设目标不断优化该多个虚拟对象的博弈结果。

    路径规划模型的训练、路径规划方法、装置及电子设备

    公开(公告)号:CN113467487B

    公开(公告)日:2021-11-23

    申请号:CN202111035827.2

    申请日:2021-09-06

    Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

    基于非监督关键二元词串提取的微博文本自动摘要方法

    公开(公告)号:CN104216875A

    公开(公告)日:2014-12-17

    申请号:CN201410502810.7

    申请日:2014-09-26

    Abstract: 一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF-IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。

Patent Agency Ranking