一种策略生成方法、装置及设备
    1.
    发明公开

    公开(公告)号:CN114511086A

    公开(公告)日:2022-05-17

    申请号:CN202210138348.1

    申请日:2022-02-15

    Abstract: 本发明公开了一种策略生成方法、装置及设备,其中,所述方法包括:选择预设的主策略风格对应的虚拟对象与对战方对战;预测所述对战方的对战策略风格,其中,所述对战策略风格为预设的至少三种策略风格中的一种,所述至少三种策略风格包括所述主策略风格和至少两种非主策略风格,所述至少三种策略风格两两之间存在克制关系;选择策略风格克制所述对战策略风格的虚拟对象与对战方对战;若未触发博弈结束规则,重复执行所述预测对战方的对战策略风格,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战的步骤;若触发预设博弈结束规则,则博弈结束。通过上述方式,本发明增加了博弈的胜率。

    基于大语言模型的行动方案生成模型的训练方法及装置

    公开(公告)号:CN118152528B

    公开(公告)日:2024-12-06

    申请号:CN202410222968.2

    申请日:2024-02-28

    Abstract: 本发明提供一种基于大语言模型的行动方案生成模型的训练方法及装置,其中方法包括:获取行动方案样本的背景信息,以及初始大语言模型;基于背景信息,以及通用大语言模型,构建行动方案样本的想定数据集;基于想定数据集,以及通用大语言模型,构建行动方案样本的问题数据集;基于问题数据集,以及通用大语言模型,构建行动方案样本的方案数据集;基于问题数据集以及方案数据集,对初始大语言模型进行训练,得到行动方案生成模型。本发明提供的方法,基于连续多阶段的数据集构建,提升了训练数据的全面性、准确性、可定制性。并通过构建得到的数据集对初始大语言模型进行微调训练,提升行动方案生成模型的准确性、可行性、实用性。

    状态值预测模型的训练方法及装置

    公开(公告)号:CN116468069A

    公开(公告)日:2023-07-21

    申请号:CN202310501183.4

    申请日:2023-05-06

    Abstract: 本发明公开了一种状态值预测模型的训练方法及装置。其中,该方法包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本发明解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。

    问答模型的优化方法及装置

    公开(公告)号:CN117992596A

    公开(公告)日:2024-05-07

    申请号:CN202410399310.9

    申请日:2024-04-03

    Abstract: 本发明涉及人工智能技术领域,提供了一种问答模型的优化方法及装置,该方法包括:将接口参数和数据库表按照预设模版进行信息扩充,得到问题集;问题集包括原始问题、原始问题对应的多个子问题和用于计算多个子问题的工具集,预设模版用于按照多个句法结构和占位符从目标数据库中提取问题集,目标数据库包含多种类型的问题和每种类型问题对应的关联问题;在相似度匹配模板中添加示例信息,得到提示模版;示例信息根据原始问题、与原始问题关联的至少一个问题、多个子问题、用于计算多个子问题的工具集和问题格式信息确定;根据提示模版对问答模型进行指令微调,得到优化后的问答模型。本发明所述方法提高了解决问题的效率和准确性。

    基于大语言模型的行动方案生成模型的训练方法及装置

    公开(公告)号:CN118152528A

    公开(公告)日:2024-06-07

    申请号:CN202410222968.2

    申请日:2024-02-28

    Abstract: 本发明提供一种基于大语言模型的行动方案生成模型的训练方法及装置,其中方法包括:获取行动方案样本的背景信息,以及初始大语言模型;基于背景信息,以及通用大语言模型,构建行动方案样本的想定数据集;基于想定数据集,以及通用大语言模型,构建行动方案样本的问题数据集;基于问题数据集,以及通用大语言模型,构建行动方案样本的方案数据集;基于问题数据集以及方案数据集,对初始大语言模型进行训练,得到行动方案生成模型。本发明提供的方法,基于连续多阶段的数据集构建,提升了训练数据的全面性、准确性、可定制性。并通过构建得到的数据集对初始大语言模型进行微调训练,提升行动方案生成模型的准确性、可行性、实用性。

    一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

    公开(公告)号:CN113792846A

    公开(公告)日:2021-12-14

    申请号:CN202111035843.1

    申请日:2021-09-06

    Abstract: 本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。

    问答模型的优化方法及装置

    公开(公告)号:CN117992596B

    公开(公告)日:2024-08-13

    申请号:CN202410399310.9

    申请日:2024-04-03

    Abstract: 本发明涉及人工智能技术领域,提供了一种问答模型的优化方法及装置,该方法包括:将接口参数和数据库表按照预设模版进行信息扩充,得到问题集;问题集包括原始问题、原始问题对应的多个子问题和用于计算多个子问题的工具集,预设模版用于按照多个句法结构和占位符从目标数据库中提取问题集,目标数据库包含多种类型的问题和每种类型问题对应的关联问题;在相似度匹配模板中添加示例信息,得到提示模版;示例信息根据原始问题、与原始问题关联的至少一个问题、多个子问题、用于计算多个子问题的工具集和问题格式信息确定;根据提示模版对问答模型进行指令微调,得到优化后的问答模型。本发明所述方法提高了解决问题的效率和准确性。

    一种基于大语言模型的目标分配方法、装置、电子设备、存储介质和程序产品

    公开(公告)号:CN117787668B

    公开(公告)日:2024-08-13

    申请号:CN202410206913.2

    申请日:2024-02-26

    Abstract: 本发明涉及任务规划技术领域,提供一种基于大语言模型的目标分配方法、装置、电子设备、存储介质和程序产品,所述方法包括:将需求分析提示文本输入至大语言模型,得到大语言模型输出的需求分析结果;基于需求分析结果,对目标任务进行分配,得到目标分配结果;基于目标分配结果,生成方案分析提示文本;将方案分析提示文本输入至大语言模型,得到大语言模型输出的方案分析结果;基于方案分析结果以及需求分析结果,生成方案描述提示文本;将方案描述提示文本输入至大语言模型,得到大语言模型输出的方案描述结果,方案描述结果用于描述目标任务的分配方案以及分配方案的评估结果。本发明能够根据用户需求精确进行目标分配。

    一种基于大语言模型的目标分配方法、装置、电子设备、存储介质和程序产品

    公开(公告)号:CN117787668A

    公开(公告)日:2024-03-29

    申请号:CN202410206913.2

    申请日:2024-02-26

    Abstract: 本发明涉及任务规划技术领域,提供一种基于大语言模型的目标分配方法、装置、电子设备、存储介质和程序产品,所述方法包括:将需求分析提示文本输入至大语言模型,得到大语言模型输出的需求分析结果;基于需求分析结果,对目标任务进行分配,得到目标分配结果;基于目标分配结果,生成方案分析提示文本;将方案分析提示文本输入至大语言模型,得到大语言模型输出的方案分析结果;基于方案分析结果以及需求分析结果,生成方案描述提示文本;将方案描述提示文本输入至大语言模型,得到大语言模型输出的方案描述结果,方案描述结果用于描述目标任务的分配方案以及分配方案的评估结果。本发明能够根据用户需求精确进行目标分配。

Patent Agency Ranking