用于运行应用程序的方法、装置及GPU节点

    公开(公告)号:CN110750282A

    公开(公告)日:2020-02-04

    申请号:CN201910971306.4

    申请日:2019-10-14

    Inventor: 赵军平

    Abstract: 本说明书的实施例提供用于运行应用程序的方法、装置及GPU节点。该GPU节点具有服务端、至少一个客户端和至少一个GPU硬件。在客户端上启动运行应用程序后,客户端获取应用程序运行时所需动态链接库中规定的API接口的第一版本信息,并将该第一版本信息包含在API指令运行请求中发送给服务端。服务端使用第一版本信息与本地驱动程序中的第二版本信息来进行API接口适配,并且使用适配后的API接口来访问GPU硬件执行API指令,然后将API指令运行结果返回给客户端。

    大语言模型的请求处理方法及装置

    公开(公告)号:CN120012781A

    公开(公告)日:2025-05-16

    申请号:CN202510081518.0

    申请日:2025-01-17

    Abstract: 本说明书实施例披露一种大语言模型的请求处理方法及装置。其中方法的实现基于针对所述大语言模型的输出文本预先设定的多个生成区段,其中各个生成区段配置有对应的起始词元和终止词元,且配置有对应的查询采样语料。该方法包括步骤:首先,针对第一请求,在判断出其处于解码阶段的情况下,根据其包括的第一词元序列,确定对应的第一生成区段;然后,基于所述第一生成区段对应的第一查询采样语料和所述大语言模型,进行针对所述第一词元序列的投机采样处理,得到续接在所述第一词元序列之后的目标词元序列,作为所述第一请求的处理结果。

    一种大模型的推理计算方法及装置

    公开(公告)号:CN118966361A

    公开(公告)日:2024-11-15

    申请号:CN202411419951.2

    申请日:2024-10-11

    Abstract: 本说明书实施例提供了一种大模型的推理计算方法及装置。在该方法中,大模型包含N个计算层。在进行推理计算时,图形处理单元GPU针对N个计算层中的部分计算层申请第一显存空间,执行部分计算层的推理计算,将得到的推理结果数据存储至第一显存空间。接着,将该推理结果数据从第一显存空间转存至CPU内存中,释放的显存空间可以用于提供给其他的计算层进行推理计算。在需要推理结果数据时,将CPU内存中的推理结果数据传输到GPU显存中。当大模型处理的数据包含隐私数据时,处理过程需要对数据进行隐私保护。

    基于GPU多stream并发的显存复用方法和装置

    公开(公告)号:CN118312333B

    公开(公告)日:2024-10-18

    申请号:CN202410743233.4

    申请日:2024-06-07

    Abstract: 本说明书的实施例提供了一种基于GPU多stream并发的显存复用方法和装置。在该基于GPU多stream并发的显存复用方法中,至少两个GPU stream并发执行,各个GPU stream中包括以执行顺序排列的GPU指令,在默认stream复用模式下,可以根据待分配显存的GPU指令所属的当前GPU stream对应的已释放显存以及当前GPU stream是否为默认stream,判断用于存储已释放显存块的显存池中是否存在候选可复用显存块;若存在候选可复用显存块,从候选可复用显存块中确定出为待分配显存的GPU指令分配的显存块。

    强化学习模型训练方法及装置
    36.
    发明公开

    公开(公告)号:CN118350483A

    公开(公告)日:2024-07-16

    申请号:CN202410559576.5

    申请日:2024-05-07

    Abstract: 本说明书实施例涉及强化学习模型训练方法及系统,应用于模型训练系统,所述模型训练系统包括至少一个训练进程和至少一个推理进程;所述方法包括:任一推理进程获取模型最新权重,并更新强化学习模型的权重值;然后,根据输入数据使用更新后的强化学习模型生成响应数据,基于输入数据和响应数据形成训练样本,并将训练样本存入目标存储区;任一训练进程从所述目标存储区中获取所述训练样本;然后,根据所述训练样本更新强化学习模型的权重值,并将更新后的模型权重发送给各个推理进程。

    用于执行GPU中的控制任务的方法、装置及GPU

    公开(公告)号:CN111782408B

    公开(公告)日:2024-02-09

    申请号:CN202010772890.3

    申请日:2020-08-04

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了一种用于执行GPU中的控制任务的方法及装置。GPU中的队列、控制任务分别被抽象封装成队列API接口、主任务API接口和从任务API接口,针对第一功能任务,第一主任务API接口分别与第一队列API接口和各个第一从任务API接口关联,第一主任务API接口针对第一功能任务执行查询操作以确定第一功能任务的任务状态;并在查询到第一功能任务完成且当前同步点小于第一功能任务的第一序号时,将同步点更新为第一序号;以及各个第一从任务API接口将当前同步点与第一控制任务相关序号进行比较,以确定第一功能任务的任务状态。

    一种多处理卡间的存储区域分配方法和系统

    公开(公告)号:CN116450055A

    公开(公告)日:2023-07-18

    申请号:CN202310714241.1

    申请日:2023-06-15

    Abstract: 本说明书实施例提供一种多处理卡间的存储区域分配方法和系统,多处理卡之间具有直连通道和/或间接通道,间接通道包括两跳以上的直连通道;技术要点包括:通过存储客户端接收应用进程的调用进而向存储服务进程发起存储区域分配请求;所述存储区域分配请求包括所需区域大小;通过存储服务进程从多处理卡中选出目标处理卡并在其上确定待分配的目标存储区域,将所述目标存储区域的标识返回给所述存储客户端;通过存储客户端基于所述标识将所述目标存储区域提供给所述应用进程使用。

    显存分配方法、系统及非暂时性存储介质

    公开(公告)号:CN115309539A

    公开(公告)日:2022-11-08

    申请号:CN202210748218.X

    申请日:2022-06-29

    Abstract: 本说明书提供的显存分配方法、系统及非暂时性存储介质,用于对串行的多个子任务进行显存分配,通过对串行的每个子任务产生的目标数据进行标记,将目标数据分为不会被后续的子任务使用的第一数据和可以被后续的子任务使用的第二数据,并使多个子任务的第一数据共享同一个目标物理内存地址,从而节省显存消耗。

    用于执行GPU中的控制任务的方法、装置及GPU

    公开(公告)号:CN111782408A

    公开(公告)日:2020-10-16

    申请号:CN202010772890.3

    申请日:2020-08-04

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了一种用于执行GPU中的控制任务的方法及装置。GPU中的队列、控制任务分别被抽象封装成队列API接口、主任务API接口和从任务API接口,针对第一功能任务,第一主任务API接口分别与第一队列API接口和各个第一从任务API接口关联,第一主任务API接口针对第一功能任务执行查询操作以确定第一功能任务的任务状态;并在查询到第一功能任务完成且当前同步点小于第一功能任务的第一序号时,将同步点更新为第一序号;以及各个第一从任务API接口将当前同步点与第一控制任务相关序号进行比较,以确定第一功能任务的任务状态。

Patent Agency Ranking