Patent search ap:("鹏城实验室") AND inv:"聂建政" Page 1

1.

发明公开
文本生成方法、装置、设备和存储介质审中-实审

公开(公告)号：CN117875367A

公开(公告)日：2024-04-12

申请号：CN202311755886.6

申请日：2023-12-19

Applicant: 鹏城实验室

Inventor： 聂建政 , 李论通 , 彭佩玺 , 田永鸿

IPC: G06N3/045 , G06N3/0985 , G06N3/09 , G06N5/04

Abstract: 本申请实施例提供文本生成方法、装置、设备和存储介质，涉及人工智能技术领域。该方法获取训练文本集以及模型参数，将文本样本输入初始大语言模型进行文本预测，利用模型参数进行前向传播，得到预测文本；基于预测文本得到损失函数，计算损失函数对于模型参数的梯度值，利用衰减参数和梯度值更新动量参数，以及利用学习率、权重衰减率和更新后的动量参数更新权重参数，多次迭代权重参数直至得到目标大语言模型；再见获取的待处理文本输入目标大语言模型得到目标生成文本。在训练过程中利用动量参数作为中间状态参数，减少中间状态参数，降低显存占用，提升处理器的资源利用率，降低大语言模型的训练成本，进而扩展大语言模型的适用范围。

2.

发明公开
策略探索模型训练方法、装置、计算机设备及存储介质审中-实审

公开(公告)号：CN119204152A

公开(公告)日：2024-12-27

申请号：CN202411147180.6

申请日：2024-08-20

Applicant: 鹏城实验室

Inventor： 聂建政 , 李论通 , 彭佩玺 , 田永鸿

IPC: G06N3/092 , G06N3/0895

Abstract: 本申请实施例公开一种策略探索模型训练方法、装置、计算机设备及存储介质。其中，根据标注数据集确定出人类偏好奖励和人类非偏好奖励，根据人类偏好奖励和人类非偏好奖励构建奖励模型；在非标注数据集中确定出目标非标注数据的预设状态及其对应的第一探索策略；获取智能体根据第一探索策略以及预设状态与环境交互输出动作状态数据集和执行结果，将执行结果输入到奖励模型中输出奖励值，将奖励值设置在动作状态数据集中；确定动作状态数据集中每个动作状态组对应的动作价值和标签值；根据动作价值和标签值确定出每个动作状态组对应的评价值，根据预设探索策略和评价值对第一探索策略更新，实现策略探索模型迭代训练，直至训练完成。

3.

发明公开
智能博弈引擎配置文件解析方法、装置、设备和存储介质审中-实审

公开(公告)号：CN119201217A

公开(公告)日：2024-12-27

申请号：CN202411142946.1

申请日：2024-08-19

Applicant: 鹏城实验室

Inventor： 田永鸿 , 李论通 , 聂建政 , 彭佩玺 , 许芬

IPC: G06F8/75

Abstract: 本申请实施例提供智能博弈引擎配置文件解析方法、装置、设备和存储介质，涉及人工智能技术领域。该方法获取智能博弈引擎的至少一个初始配置YAML文件，从初始配置YAML文件中提取配置项和配置参数，根据业务逻辑和配置类型生成至少一个目标配置类，根据配置项生成目标配置类的字段名称和字段类型，根据配置参数生成字段名称对应的属性值，基于属性规则对配置参数进行参数校验，当属性值都校验通过后，对目标配置类进行实例化，得到配置文件解析结果。不同于相关技术中解析过程较为复杂且计算量大。本实施例中直接将初始配置YAML文件中的数据映射到类对象的属性上，从而避免对每个层级进行逐个解析，提高配置相关数据的处理速度和效率。

4.

发明公开
博弈对局的显示方法、装置、系统、电子设备及存储介质审中-实审

公开(公告)号：CN119113513A

公开(公告)日：2024-12-13

申请号：CN202411104222.8

申请日：2024-08-12

Applicant: 鹏城实验室

Inventor： 田永鸿 , 李论通 , 聂建政 , 彭佩玺 , 许芬

IPC: A63F13/52 , A63F13/30 , G06N3/006 , G06N5/04

Abstract: 本申请公开了博弈对局的显示方法、装置、系统、电子设备及存储介质，方法包括：响应于目标对象在前端页面上触发的博弈连接操作，生成博弈连接请求；通过连接接口将博弈连接请求发送至后端，并获取后端返回的博弈对局关联信息；根据博弈对局关联信息在前端页面上渲染显示第一博弈对局画面；响应于目标对象触发的博弈操作，通过动作接口向后端发送博弈操作指令，以按照机器博弈指令在博弈对局中执行与其他目标博弈智能体之间的博弈对抗；通过前端与后端之间的状态接口获取后端在博弈对局中执行博弈对抗之后返回的博弈对局数据，并在前端页面上对博弈对局数据进行画面渲染显示。本发明实施例能够实现对博弈过程的实时展示，便于用户理解博弈过程。

5.

发明公开
一种兵棋推演的策略生成方法、电子设备、存储介质审中-实审

公开(公告)号：CN117861230A

公开(公告)日：2024-04-12

申请号：CN202410038263.5

申请日：2024-01-10

Applicant: 鹏城实验室

Inventor： 李论通 , 聂建政 , 许芬 , 彭佩玺 , 田永鸿

IPC: A63F13/822 , A63F13/55 , G06N3/092

Abstract: 本实施例提出一种兵棋推演的策略生成方法、电子设备和存储介质。通过基于每个智能体的状态空间和动作空间构建多智能体的联合状态空间、联合动作空间、联合奖励函数和状态转移函数，使多智能体可以在团队层面进行学习和决策，将多智能体决策问题转化为生成动作序列的策略生成问题，大幅降低了多智能体决策的复杂度，同时，控制每个智能体在决策时除了基于智能体的观测信息外还需考虑其它智能体的动作序列，避免由于多智能体之间的策略不可传递导致每个智能体在决策时陷入局部最优，使得多智能体可以输出全局最优解，同时避免多智能体协作过程中的不平稳问题，有效提高了兵棋推演场景下多智能体决策的平稳性。

6.

发明公开
博弈对抗竞赛平台控制方法、装置、设备和存储介质审中-实审

公开(公告)号：CN119312911A

公开(公告)日：2025-01-14

申请号：CN202411140750.9

申请日：2024-08-19

Applicant: 鹏城实验室

Inventor： 田永鸿 , 李论通 , 聂建政 , 彭佩玺 , 许芬

IPC: G06N5/04 , G06N3/006

Abstract: 本申请实施例提供博弈对抗竞赛平台控制方法、装置、设备和存储介质，涉及人工智能技术领域。通过响应于接收到的竞赛配置参数，基于预设的参数配置模板生成博弈对抗竞赛执行单元，接收参赛用户上传的候选智能体，并对候选智能体进行校验，将校验通过的候选智能体作为竞赛智能体，根据竞赛配置参数中的赛制参数生成不同的竞赛智能体之间的对局信息，获取竞赛智能体根据对局信息进行博弈对抗得到的竞赛结果。对博弈对抗竞赛进行封装，通过交互得到不同的竞赛配置参数，实现通用的博弈对抗竞赛的创建过程，能够根据实际的对抗需求进行竞赛的实际调度，提升了博弈对抗竞赛的生成效率，并且适用于不同用户端的博弈对抗。

7.

发明公开
智能体博弈方法、装置、计算机设备及可读存储介质审中-实审

公开(公告)号：CN119158248A

公开(公告)日：2024-12-20

申请号：CN202411237695.5

申请日：2024-09-04

Applicant: 鹏城实验室

Inventor： 田永鸿 , 李论通 , 聂建政 , 彭佩玺 , 许芬

IPC: A63F3/02 , G06F9/48 , G06F9/54

Abstract: 本申请实施例提供了一种智能体博弈方法、装置、计算机设备及可读存储介质。包括：响应于针对目标博弈环境的博弈触发操作，确定当前目标博弈环境下博弈代理智能体的调用顺序；获取目标博弈环境当前的博弈状态，根据博弈状态生成对应博弈代理智能体的博弈动作调用信息；确定每个博弈代理智能体关联的资源代理端，通过资源代理端将博弈动作调用信息发送至对应的博弈代理智能体，并获取其返回的博弈动作信息；将资源代理端接收的博弈动作信息通过连接接口反馈至目标博弈环境中，并根据目标博弈环境下的多个博弈动作信息形成博弈对局信息；基于博弈对局信息在目标博弈环境中进行智能体博弈。以此，能够提高系统在智能体博弈时的稳定性和可靠性。

8.

发明公开
博弈对局的仿真方法、装置、设备及介质审中-实审

公开(公告)号：CN119129699A

公开(公告)日：2024-12-13

申请号：CN202411196157.6

申请日：2024-08-28

Applicant: 鹏城实验室

Inventor： 高文 , 田永鸿 , 李论通 , 聂建政 , 彭佩玺 , 许芬

IPC: G06N3/094 , G06N3/065

Abstract: 本发明提供了一种博弈对局的仿真方法，该方法包括获取预置的通用交互范式数据，通用交互范式数据包含多种博弈类型的仿真环境下的交互控制逻辑；获取预置的统一接口集合，统一接口集合包含用于与多种博弈类型的仿真环境交互的接口函数；基于统一接口集合匹配生成目标博弈环境对应的仿真环境适配器；通过仿真环境适配器创建目标博弈环境对应的博弈环境实例，并创建至少一个智能体对象；按照通用交互范式数据控制至少一个智能体对象通过博弈环境实例进行博弈对局交互，以使得博弈仿真系统可以集成各种仿真环境，从而有效提高博弈仿真系统的泛化能力和灵活性。

9.

发明公开
基于文本生成模型的优化器量化方法、装置以及控制器审中-实审

公开(公告)号：CN117973469A

公开(公告)日：2024-05-03

申请号：CN202410053158.9

申请日：2024-01-12

Applicant: 鹏城实验室

Inventor： 聂建政 , 李论通 , 彭佩玺 , 田永鸿

IPC: G06N3/063 , G06N3/084 , G06F9/50

Abstract: 本申请涉及人工智能技术领域，特别涉及基于文本生成模型的优化器量化方法、装置以及控制器。优化器量化方法包括读取优化器的文本输入张量，文本输入张量为第一位宽的浮点数据；确定文本输入张量的梯度信息并对梯度信息分块处理，得到多个独立块，根据归一化常数对独立块进行量化处理，得到独立块的量化结果，量化结果为第二位宽的整数数据；将量化结果进行优化预处理，得到优化量化结果，将优化量化结果作为第一优化器状态；对第一优化器状态进行反量化处理，得到第二优化器状态，并更新优化器；对第二优化器状态进行量化处理以回到第一优化器状态，存储独立块的优化量化结果，有利于降低文本生成模型中优化器的显存占用，提高显卡的利用率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification