-
公开(公告)号:CN118409874B
公开(公告)日:2024-10-18
申请号:CN202410881312.1
申请日:2024-07-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/50 , G06F9/48 , G06F9/54 , G06F9/312 , G06F12/02 , G06F12/0811 , G06F12/0862
Abstract: 本说明书实施例提供基于GPU片上内存的数据处理方法、装置及系统。在第一GPU线程上发起针对第一数据的数据获取操作,第一数据包括GPU计算任务所需可写数据;在第一GPU线程执行数据获取操作期间,在第二GPU线程上发起将第二数据从GPU全局内存预读取到GPU片上内存的数据预读取过程,第二数据包括GPU全局内存中存储的GPU计算任务所需只读数据;以及响应于第一数据的数据获取过程和第二数据的数据预读取过程完成,在第二GPU线程上基于第一数据和第二数据执行GPU计算任务。
-
公开(公告)号:CN119090015A
公开(公告)日:2024-12-06
申请号:CN202411191242.3
申请日:2024-08-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N5/04 , G06F40/284 , G06F40/151
Abstract: 本说明书提供一种文本生成方法、装置、存储介质设备和程序产品,应用于LLM中,LLM的每轮循环中可以:通过投机采样的方法,得到当前文本序列之后的第一文本序列,并形成多个备选序列。在键值缓存中,为多个备选序列中的文本单元分配逻辑块,并将逻辑块映射为物理块。在映射物理块过程中,投机采样得到的多个备选序列中,针对相同文本单元分配的多个逻辑块被映射为同一物理块。再利用键值缓存存储的注意力信息,通过LLM确定本次循环新生成的文本单元。针对投机采样和分页管理相结合的情况下,多个备选序列存在相同文本单元这一特殊场景,提出了逻辑块映射为物理块的第一准则,使得多个备选序列可以占用尽量少的显存空间,增加了显存空间的利用率。
-
公开(公告)号:CN120012781A
公开(公告)日:2025-05-16
申请号:CN202510081518.0
申请日:2025-01-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06F40/284 , G06F40/216 , G06N20/00 , G06N5/022
Abstract: 本说明书实施例披露一种大语言模型的请求处理方法及装置。其中方法的实现基于针对所述大语言模型的输出文本预先设定的多个生成区段,其中各个生成区段配置有对应的起始词元和终止词元,且配置有对应的查询采样语料。该方法包括步骤:首先,针对第一请求,在判断出其处于解码阶段的情况下,根据其包括的第一词元序列,确定对应的第一生成区段;然后,基于所述第一生成区段对应的第一查询采样语料和所述大语言模型,进行针对所述第一词元序列的投机采样处理,得到续接在所述第一词元序列之后的目标词元序列,作为所述第一请求的处理结果。
-
公开(公告)号:CN118409874A
公开(公告)日:2024-07-30
申请号:CN202410881312.1
申请日:2024-07-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/50 , G06F9/48 , G06F9/54 , G06F9/312 , G06F12/02 , G06F12/0811 , G06F12/0862
Abstract: 本说明书实施例提供基于GPU片上内存的数据处理方法、装置及系统。在第一GPU线程上发起针对第一数据的数据获取操作,第一数据包括GPU计算任务所需可写数据;在第一GPU线程执行数据获取操作期间,在第二GPU线程上发起将第二数据从GPU全局内存预读取到GPU片上内存的数据预读取过程,第二数据包括GPU全局内存中存储的GPU计算任务所需只读数据;以及响应于第一数据的数据获取过程和第二数据的数据预读取过程完成,在第二GPU线程上基于第一数据和第二数据执行GPU计算任务。
-
公开(公告)号:CN120031025A
公开(公告)日:2025-05-23
申请号:CN202510125481.7
申请日:2025-01-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/216 , G06F40/279 , G06F16/3329 , G06F16/334
Abstract: 本说明书提供了一种用于大语言模型的投机采样方法,在获取输入大语言模型的目标提示词后,从预设的多个话题中确定与目标提示词相关的目标话题。每个目标话题设置有对应的词表,在确定目标话题后,可以基于目标话题对应的目标词表,进行基于词表中记录的各个文本片段的频次的投机采样。从而可以利用投机采样结果进行大语言模型解码阶段的预测。基于词表进行投机采样可以减少显存资源的占用。对不同话题的词表进行区分,提高了投机采样的准确率。
-
-
-
-