大语言模型的请求处理方法及装置

    公开(公告)号:CN120012781A

    公开(公告)日:2025-05-16

    申请号:CN202510081518.0

    申请日:2025-01-17

    Abstract: 本说明书实施例披露一种大语言模型的请求处理方法及装置。其中方法的实现基于针对所述大语言模型的输出文本预先设定的多个生成区段,其中各个生成区段配置有对应的起始词元和终止词元,且配置有对应的查询采样语料。该方法包括步骤:首先,针对第一请求,在判断出其处于解码阶段的情况下,根据其包括的第一词元序列,确定对应的第一生成区段;然后,基于所述第一生成区段对应的第一查询采样语料和所述大语言模型,进行针对所述第一词元序列的投机采样处理,得到续接在所述第一词元序列之后的目标词元序列,作为所述第一请求的处理结果。

    一种大模型的推理计算方法及装置

    公开(公告)号:CN118966361A

    公开(公告)日:2024-11-15

    申请号:CN202411419951.2

    申请日:2024-10-11

    Abstract: 本说明书实施例提供了一种大模型的推理计算方法及装置。在该方法中,大模型包含N个计算层。在进行推理计算时,图形处理单元GPU针对N个计算层中的部分计算层申请第一显存空间,执行部分计算层的推理计算,将得到的推理结果数据存储至第一显存空间。接着,将该推理结果数据从第一显存空间转存至CPU内存中,释放的显存空间可以用于提供给其他的计算层进行推理计算。在需要推理结果数据时,将CPU内存中的推理结果数据传输到GPU显存中。当大模型处理的数据包含隐私数据时,处理过程需要对数据进行隐私保护。

Patent Agency Ranking