-
公开(公告)号:CN118350483A
公开(公告)日:2024-07-16
申请号:CN202410559576.5
申请日:2024-05-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本说明书实施例涉及强化学习模型训练方法及系统,应用于模型训练系统,所述模型训练系统包括至少一个训练进程和至少一个推理进程;所述方法包括:任一推理进程获取模型最新权重,并更新强化学习模型的权重值;然后,根据输入数据使用更新后的强化学习模型生成响应数据,基于输入数据和响应数据形成训练样本,并将训练样本存入目标存储区;任一训练进程从所述目标存储区中获取所述训练样本;然后,根据所述训练样本更新强化学习模型的权重值,并将更新后的模型权重发送给各个推理进程。
-
公开(公告)号:CN116560585B
公开(公告)日:2024-04-09
申请号:CN202310819451.7
申请日:2023-07-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F3/06
Abstract: 说明书实施例提供一种数据分级存储方法和系统,涉及数据存储技术,其要点包括:基于向第一存储区域发起的对目标数据的访问请求以及所述目标数据的历史访问频次,获得所述目标数据的当前访问频次;第一存储区域中的数据从第二存储区域迁入,且具有历史访问频次标记,历史访问频次标记反映相应数据从第一存储区域被请求访问的历史次数;当所述当前访问频次大于缓存阈值时,将目标数据保留在第一存储区域或从第二存储区域迁入第一存储区域,以及基于所述目标数据的当前访问频次更新其历史访问频次标记;所述第一存储区域具有大于所述第二存储区域的数据传输带宽。
-
公开(公告)号:CN117744631A
公开(公告)日:2024-03-22
申请号:CN202311688510.8
申请日:2023-12-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/211 , G06F40/253 , G06F18/214
Abstract: 本说明书实施例提供一种文本预测的方法及装置,在基于大模型进行文本预测过程中,为当前词预测下文时,根据当前业务请求及历史生成文本,确定将当前词作为起始词的若干个预取词组,然后对各个预取词组并行执行前向预测,从而确定基于若干个预取词组匹配到的最长词序列,根据最长词序列确定相应的若干输出词作为当前词的下文。如此,可以通过预取和并行计算提高词预测速率。
-
公开(公告)号:CN116560585A
公开(公告)日:2023-08-08
申请号:CN202310819451.7
申请日:2023-07-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F3/06
Abstract: 说明书实施例提供一种数据分级存储方法和系统,涉及数据存储技术,其要点包括:基于向第一存储区域发起的对目标数据的访问请求以及所述目标数据的历史访问频次,获得所述目标数据的当前访问频次;第一存储区域中的数据从第二存储区域迁入,且具有历史访问频次标记,历史访问频次标记反映相应数据从第一存储区域被请求访问的历史次数;当所述当前访问频次大于缓存阈值时,将目标数据保留在第一存储区域或从第二存储区域迁入第一存储区域,以及基于所述目标数据的当前访问频次更新其历史访问频次标记;所述第一存储区域具有大于所述第二存储区域的数据传输带宽。
-
公开(公告)号:CN116523030B
公开(公告)日:2023-09-15
申请号:CN202310792482.8
申请日:2023-06-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种动态调度模型训练资源的方法及装置。该方法包括:先将强化学习任务对应的环境状态空间切分成多个子空间,作为待处理的多个环境状态切片;再选取若干环境状态切片对应分配给集群中的若干第一节点,以使该若干第一节点各自基于接收到的环境状态切片,利用强化学习模型与环境交互生成经验样本,该经验样本被存储至重放缓冲区,并由所述集群中的若干第二节点进行读取以训练所述强化学习模型;之后,根据经验样本的生成速度和消耗速度之间的大小关系,增加第一节点和/或第二节点,或者,在确定出集群的空闲资源量小于其他的高优先级任务的需求资源量的情况下,删除部分第一节点和/或部分第二节点。
-
公开(公告)号:CN116523030A
公开(公告)日:2023-08-01
申请号:CN202310792482.8
申请日:2023-06-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种动态调度模型训练资源的方法及装置。该方法包括:先将强化学习任务对应的环境状态空间切分成多个子空间,作为待处理的多个环境状态切片;再选取若干环境状态切片对应分配给集群中的若干第一节点,以使该若干第一节点各自基于接收到的环境状态切片,利用强化学习模型与环境交互生成经验样本,该经验样本被存储至重放缓冲区,并由所述集群中的若干第二节点进行读取以训练所述强化学习模型;之后,根据经验样本的生成速度和消耗速度之间的大小关系,增加第一节点和/或第二节点,或者,在确定出集群的空闲资源量小于其他的高优先级任务的需求资源量的情况下,删除部分第一节点和/或部分第二节点。
-
-
-
-
-