-
公开(公告)号:CN118350483A
公开(公告)日:2024-07-16
申请号:CN202410559576.5
申请日:2024-05-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本说明书实施例涉及强化学习模型训练方法及系统,应用于模型训练系统,所述模型训练系统包括至少一个训练进程和至少一个推理进程;所述方法包括:任一推理进程获取模型最新权重,并更新强化学习模型的权重值;然后,根据输入数据使用更新后的强化学习模型生成响应数据,基于输入数据和响应数据形成训练样本,并将训练样本存入目标存储区;任一训练进程从所述目标存储区中获取所述训练样本;然后,根据所述训练样本更新强化学习模型的权重值,并将更新后的模型权重发送给各个推理进程。
-
公开(公告)号:CN117744631A
公开(公告)日:2024-03-22
申请号:CN202311688510.8
申请日:2023-12-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/211 , G06F40/253 , G06F18/214
Abstract: 本说明书实施例提供一种文本预测的方法及装置,在基于大模型进行文本预测过程中,为当前词预测下文时,根据当前业务请求及历史生成文本,确定将当前词作为起始词的若干个预取词组,然后对各个预取词组并行执行前向预测,从而确定基于若干个预取词组匹配到的最长词序列,根据最长词序列确定相应的若干输出词作为当前词的下文。如此,可以通过预取和并行计算提高词预测速率。
-