一种数据传输和任务处理方法、装置及设备

    公开(公告)号:CN111309649A

    公开(公告)日:2020-06-19

    申请号:CN202010086948.9

    申请日:2020-02-11

    Inventor: 赵军平

    Abstract: 本说明书实施例公开了数据传输和任务处理方法、装置及设备。方案包括:获取客户端发送的数据传输请求;获取所述数据传输请求中的第一虚拟地址;获取所述第一虚拟地址对应的物理内存地址;基于物理内存地址与虚拟地址的映射关系,确定所述物理内存地址对应的第二虚拟地址;获取为所述数据传输请求分配的GPU地址;生成从所述第二虚拟地址至所述GPU地址的数据拷贝指令;调用GPU驱动的接口执行所述数据拷贝指令。

    一种基于GPU虚拟化的资源复用方法、装置及设备

    公开(公告)号:CN110851285B

    公开(公告)日:2020-04-24

    申请号:CN202010037822.2

    申请日:2020-01-14

    Inventor: 赵军平

    Abstract: 本说明书实施例公开了一种基于GPU虚拟化的资源复用方法、装置及设备。方案包括:通过在客户端预先存储对于第一资源的设置参数,从而令客户端本地可以处理AI框架层发送的用于创建第一资源的第一API调用请求,以及对所述第一资源进行设置的第二API调用请求,无需转发GPU驱动;并令客户端在获取到AI框架层发送的用于基于第一资源进行计算的第三API调用请求时,将生成的针对第一资源的第一计算指令以及预先存储的对于第一资源的设置参数,发送至GPU驱动,从而利用GPU虚拟化技术执行AI任务。

    一种用于大语言模型的投机采样方法、装置和计算机设备

    公开(公告)号:CN120031025A

    公开(公告)日:2025-05-23

    申请号:CN202510125481.7

    申请日:2025-01-26

    Abstract: 本说明书提供了一种用于大语言模型的投机采样方法,在获取输入大语言模型的目标提示词后,从预设的多个话题中确定与目标提示词相关的目标话题。每个目标话题设置有对应的词表,在确定目标话题后,可以基于目标话题对应的目标词表,进行基于词表中记录的各个文本片段的频次的投机采样。从而可以利用投机采样结果进行大语言模型解码阶段的预测。基于词表进行投机采样可以减少显存资源的占用。对不同话题的词表进行区分,提高了投机采样的准确率。

    一种GPU算力资源的调度方法、装置

    公开(公告)号:CN118885273A

    公开(公告)日:2024-11-01

    申请号:CN202411047342.9

    申请日:2024-07-31

    Abstract: 一种GPU算力资源的调度方法,包括:响应于在计算集群中创建的目标计算任务,确定所述目标计算任务的任务类型;如果所述目标计算任务为所述第一类计算任务,将所述目标计算任务调度至所述计算集群中的剩余算力资源满足所述目标计算任务的算力需求的第一GPU硬件进行运行;响应于搭载所述第一GPU硬件的第一计算节点上报的所述第一类计算任务将独占所述第一GPU硬件的算力资源的第一指示,将已调度至所述第一GPU硬件进行运行的所述第二类计算任务,重新调度至所述计算集群中的剩余算力资源满足所述第二类计算任务的算力需求的第二GPU硬件进行运行;所述第一类计算任务的服务等级高于所述第二类计算任务。

    用于对物理内存池进行分配管理的方法及装置、物理内存池

    公开(公告)号:CN113485832B

    公开(公告)日:2024-07-02

    申请号:CN202110777376.3

    申请日:2021-07-09

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了一种用于对物理内存池进行分配管理的方法及装置、物理内存池。物理内存池由系统中的GPU显存和其他物理内存构成,物理内存池的管理结构信息包括已释放内存对象集和已分配内存对象集,已释放内存对象集包括物理内存池中经过分配后当前已释放的空闲内存对象,已分配内存对象集包括物理内存池中已分配且当前在使用的内存对象。在该方法中,响应于请求指定容量的内存,在已释放内存对象集中查询是否存在指定容量的内存对象;若存在,对所查询到的指定容量的内存对象进行分配;以及将所分配的内存对象从已释放内存对象集中删除,并增加至已分配内存对象集。

    一种多处理卡间的数据传输方法
    26.
    发明公开

    公开(公告)号:CN117290280A

    公开(公告)日:2023-12-26

    申请号:CN202311484181.5

    申请日:2023-06-15

    Abstract: 本说明书实施例提供一种多处理卡间的数据传输方法,多处理卡之间具有直连通道和间接通道,间接通道包括两跳以上的直连通道;多处理卡位于同一处理设备的主板上;该方法包括:接收卡间数据传输请求;确定从源地址对应的第一处理卡到目标地址对应的第二处理卡之间的两条以上通道;从两条以上通道中选出一条以上的目标通道,用于传输待传输数据;基于目标通道的数量和待传输数据得到待传输数据的一个以上数据子集,一个以上数据子集通过一个以上的目标通道进行传输;基于一个以上数据子集,向与目标通道相关的处理卡发起数据传输指令,通过与目标通道相关的处理卡将相应数据子集进行传输,进而将待传输数据传输至目标地址。

    显存分配处理方法、装置、设备及系统

    公开(公告)号:CN114168316A

    公开(公告)日:2022-03-11

    申请号:CN202111304911.X

    申请日:2021-11-05

    Abstract: 本说明书提供一种显存分配处理方法、装置、设备及系统,通过对智能学习模型中的模型参数进行哈希运算,通过比较模型参数的哈希值确定待部署模型的模型参数是否与已经部署的模型参数重复,若重复则不需要分配新的物理显存,利用虚拟指针的方式将重复的模型参数映射到对应的物理显存处,实现相同内容的共享,对于相同的模型参数不需要重复保存,实现了相同内容的数据共享,大大节省物理显存空间,进而可以实现在有限的显存空间内部署更多的实例,提升了系统性能。

    一种数据传输和任务处理方法、装置及设备

    公开(公告)号:CN111309649B

    公开(公告)日:2021-05-25

    申请号:CN202010086948.9

    申请日:2020-02-11

    Inventor: 赵军平

    Abstract: 本说明书实施例公开了数据传输和任务处理方法、装置及设备。方案包括:获取客户端发送的数据传输请求;获取所述数据传输请求中的第一虚拟地址;获取所述第一虚拟地址对应的物理内存地址;基于物理内存地址与虚拟地址的映射关系,确定所述物理内存地址对应的第二虚拟地址;获取为所述数据传输请求分配的GPU地址;生成从所述第二虚拟地址至所述GPU地址的数据拷贝指令;调用GPU驱动的接口执行所述数据拷贝指令。

    用于执行GPU中的控制任务的方法、装置及GPU

    公开(公告)号:CN111782407A

    公开(公告)日:2020-10-16

    申请号:CN202010772701.2

    申请日:2020-08-04

    Inventor: 赵军平

    Abstract: 本说明书实施例提供了一种用于执行GPU中的控制任务的方法及装置。GPU中的队列、控制任务分别被抽象封装成队列API接口和任务API接口,队列API接口与各个任务API接口关联,各个任务API接口包括对应控制任务的序号,队列API接口包括同步点,且配置有回调函数。基于此,针对每个控制任务,响应于该控制任务的执行指令,利用该控制任务对应的任务API接口获得关联的队列API接口中的当前同步点;以及利用该任务API接口将获得的当前同步点与控制任务相关序号进行比较,以确定该控制任务关注的功能任务的任务状态。

    一种基于GPU虚拟化的资源复用方法、装置及设备

    公开(公告)号:CN110851285A

    公开(公告)日:2020-02-28

    申请号:CN202010037822.2

    申请日:2020-01-14

    Inventor: 赵军平

    Abstract: 本说明书实施例公开了一种基于GPU虚拟化的资源复用方法、装置及设备。方案包括:通过在客户端预先存储对于第一资源的设置参数,从而令客户端本地可以处理AI框架层发送的用于创建第一资源的第一API调用请求,以及对所述第一资源进行设置的第二API调用请求,无需转发GPU驱动;并令客户端在获取到AI框架层发送的用于基于第一资源进行计算的第三API调用请求时,将生成的针对第一资源的第一计算指令以及预先存储的对于第一资源的设置参数,发送至GPU驱动,从而利用GPU虚拟化技术执行AI任务。

Patent Agency Ranking