GPU混部下的分布式任务执行方法和系统

    公开(公告)号:CN119396608A

    公开(公告)日:2025-02-07

    申请号:CN202411548262.1

    申请日:2024-10-31

    Abstract: 本说明书实施例提供了GPU混部下的分布式任务执行方法和系统,其应用于包含多个GPU的平台,其中部署有第一类任务和第二类任务,第二类任务的优先级低于第一类任务。任务执行的方法包括:目标应用调用集合通信库,请求执行GPU间的目标通信操作,其中,该目标应用属于第二类任务。然后,集合通信库确定出目标通信操作涉及的子任务列表,其中包括分布于不同GPU的多个子任务;通过进程间同步操作,使得所述多个子任务向GPU驱动环境同步提交通信kerne l。GPU驱动环境在确定上述通信kerne l启用同步提交的情况下,立即向GPU提交所述通信kerne l。

    显存分配处理方法、装置、设备及系统

    公开(公告)号:CN114168316B

    公开(公告)日:2024-12-13

    申请号:CN202111304911.X

    申请日:2021-11-05

    Abstract: 本说明书提供一种显存分配处理方法、装置、设备及系统,通过对智能学习模型中的模型参数进行哈希运算,通过比较模型参数的哈希值确定待部署模型的模型参数是否与已经部署的模型参数重复,若重复则不需要分配新的物理显存,利用虚拟指针的方式将重复的模型参数映射到对应的物理显存处,实现相同内容的共享,对于相同的模型参数不需要重复保存,实现了相同内容的数据共享,大大节省物理显存空间,进而可以实现在有限的显存空间内部署更多的实例,提升了系统性能。

    一种文本生成方法、装置、存储介质设备和程序产品

    公开(公告)号:CN119090015A

    公开(公告)日:2024-12-06

    申请号:CN202411191242.3

    申请日:2024-08-27

    Abstract: 本说明书提供一种文本生成方法、装置、存储介质设备和程序产品,应用于LLM中,LLM的每轮循环中可以:通过投机采样的方法,得到当前文本序列之后的第一文本序列,并形成多个备选序列。在键值缓存中,为多个备选序列中的文本单元分配逻辑块,并将逻辑块映射为物理块。在映射物理块过程中,投机采样得到的多个备选序列中,针对相同文本单元分配的多个逻辑块被映射为同一物理块。再利用键值缓存存储的注意力信息,通过LLM确定本次循环新生成的文本单元。针对投机采样和分页管理相结合的情况下,多个备选序列存在相同文本单元这一特殊场景,提出了逻辑块映射为物理块的第一准则,使得多个备选序列可以占用尽量少的显存空间,增加了显存空间的利用率。

    大语言模型的键值缓存管理、模型推理和数据处理方法及装置

    公开(公告)号:CN118860573A

    公开(公告)日:2024-10-29

    申请号:CN202410915392.8

    申请日:2024-07-09

    Inventor: 张锐 赵军平

    Abstract: 本说明书实施例大语言模型的键值缓存管理、模型推理和数据处理方法及装置。在处理时,为待处理模型推理请求的新增词元键值数据分配虚拟地址区间中的虚拟内存块,并且在确定调度执行模型推理请求后,维护所占用虚拟地址区间与为所述待处理模型推理请求分配的物理显存块之间的映射关系,同时将所占用虚拟地址区间的区间指示信息保存在有效虚拟地址区间表。然后,将模型推理请求的新增词元键值数据拷贝到所分配的物理显存块中。在执行模型推理时,根据有效虚拟地址区间表中的虚拟地址区间的区间指示信息确定模型推理请求所对应的物理显存块;从所确定的物理显存块中顺序取回所保存的全部序列词元键值数据;并使用序列词元键值数据执行模型推理。

    一种多处理卡间的数据传输方法和系统

    公开(公告)号:CN116450564B

    公开(公告)日:2023-11-28

    申请号:CN202310707879.2

    申请日:2023-06-15

    Abstract: 本说明书实施例提供一种多处理卡间的数据传输方法和系统,涉及计算机技术领域,其技术要点包括:通过数据传输客户端接收应用进程的调用向数据传输服务进程发起卡间数据传输请求;通过数据传输服务进程从源地址对应的第一处理卡到目标地址对应的第二处理卡之间的两条以上通道中选择一条以上的目标通道,并将目标通道标识返回给所述数据传输客户端;通过数据传输客户端基于目标通道的数量和待传输数据得到所述待传输数据的一个以上数据子集;通过数据传输客户端基于所述一个以上数据子集,向与目标通道相关的处理卡上的传输进程发起数据传输指令;通过与目标通道相关的处理卡上的传输进程将相应数据子集进行传输。

    用于对GPU显存复用方案进行优化的方法及装置

    公开(公告)号:CN114398182A

    公开(公告)日:2022-04-26

    申请号:CN202210071431.1

    申请日:2022-01-21

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了用于对GPU显存复用方案进行优化的方法及装置。在该方法中,确定应用程序运行所需访问的内存对象以及各个内存对象的访问次序和数据量;根据访问次序的先后顺序以及数据量大小顺序对各个内存对象进行排序,以得到内存对象序列;从内存对象序列中选择第一数量的数据量最大的内存对象;根据所选择的内存对象的数据量将GPU显存划分为包括第一数量的内存段;循环执行以下内存对象分配过程,直至生成第二数量的分配序列:将内存对象序列中未分配的其他内存对象分配至各个内存段中,以生成分配序列;以及利用遗传算法以及数据迁移量对多个分配序列进行处理,以选出数据迁移量最小的分配序列作为GPU显存复用方案。

    用于分配GPU物理内存的方法及装置

    公开(公告)号:CN113377545B

    公开(公告)日:2023-11-14

    申请号:CN202110772139.8

    申请日:2021-07-08

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了一种用于分配GPU显存的方法及装置。在该方法中,响应于显存请求,在该请求指定的GPU显存对应配置的预设虚拟内存中分配第一虚拟内存,预设虚拟内存的容量大于GPU显存的容量;反馈第一虚拟内存对应的虚拟内存指针,虚拟内存指针对应有虚拟内存指针管理结构,虚拟内存指针管理结构包括第一虚拟内存的容量、与第一虚拟内存对应映射的物理内存地址;在执行内存访问操作时,在GPU显存上分配与所述第一虚拟内存相同容量的第一显存;以及根据所分配的第一显存来更新虚拟内存指针管理结构中的物理内存地址,以使内存访问驱动根据物理内存地址访问第一显存。

    一种多处理卡间的存储区域分配方法和系统

    公开(公告)号:CN116450055B

    公开(公告)日:2023-10-27

    申请号:CN202310714241.1

    申请日:2023-06-15

    Abstract: 本说明书实施例提供一种多处理卡间的存储区域分配方法和系统,多处理卡之间具有直连通道和/或间接通道,间接通道包括两跳以上的直连通道;技术要点包括:通过存储客户端接收应用进程的调用进而向存储服务进程发起存储区域分配请求;所述存储区域分配请求包括所需区域大小;通过存储服务进程从多处理卡中选出目标处理卡并在其上确定待分配的目标存储区域,将所述目标存储区域的标识返回给所述存储客户端;通过存储客户端基于所述标识将所述目标存储区域提供给所述应用进程使用。

    用于运行应用程序的方法、装置及GPU节点

    公开(公告)号:CN110750282B

    公开(公告)日:2021-04-02

    申请号:CN201910971306.4

    申请日:2019-10-14

    Inventor: 赵军平

    Abstract: 本说明书的实施例提供用于运行应用程序的方法、装置及GPU节点。该GPU节点具有服务端、至少一个客户端和至少一个GPU硬件。在客户端上启动运行应用程序后,客户端获取应用程序运行时所需动态链接库中规定的API接口的第一版本信息,并将该第一版本信息包含在API指令运行请求中发送给服务端。服务端使用第一版本信息与本地驱动程序中的第二版本信息来进行API接口适配,并且使用适配后的API接口来访问GPU硬件执行API指令,然后将API指令运行结果返回给客户端。

Patent Agency Ranking