Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"李震" Page 1

1.

发明公开
强化学习模型训练方法及装置审中-实审

公开(公告)号：CN118350483A

公开(公告)日：2024-07-16

申请号：CN202410559576.5

申请日：2024-05-07

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 韩旭东 , 张锐 , 李震 , 沙剑 , 赵军平

IPC: G06N20/00

Abstract: 本说明书实施例涉及强化学习模型训练方法及系统，应用于模型训练系统，所述模型训练系统包括至少一个训练进程和至少一个推理进程；所述方法包括：任一推理进程获取模型最新权重，并更新强化学习模型的权重值；然后，根据输入数据使用更新后的强化学习模型生成响应数据，基于输入数据和响应数据形成训练样本，并将训练样本存入目标存储区；任一训练进程从所述目标存储区中获取所述训练样本；然后，根据所述训练样本更新强化学习模型的权重值，并将更新后的模型权重发送给各个推理进程。

2.

发明公开
文本预测的方法及装置审中-实审

公开(公告)号：CN117744631A

公开(公告)日：2024-03-22

申请号：CN202311688510.8

申请日：2023-12-10

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 赵耀 , 韩旭东 , 李震 , 庄晨熠 , 沙剑 , 曾晓东 , 顾进杰 , 张冠男

IPC: G06F40/211 , G06F40/253 , G06F18/214

Abstract: 本说明书实施例提供一种文本预测的方法及装置，在基于大模型进行文本预测过程中，为当前词预测下文时，根据当前业务请求及历史生成文本，确定将当前词作为起始词的若干个预取词组，然后对各个预取词组并行执行前向预测，从而确定基于若干个预取词组匹配到的最长词序列，根据最长词序列确定相应的若干输出词作为当前词的下文。如此，可以通过预取和并行计算提高词预测速率。

Patent Agency Ranking