基于动态管理模型参数的大模型推理加速方法及系统

    公开(公告)号:CN119883593A

    公开(公告)日:2025-04-25

    申请号:CN202411712814.8

    申请日:2024-11-27

    Abstract: 本发明公开一种基于动态管理模型参数的大模型推理加速方法及系统,属于大模型技术领域。所述方法包括:基于PCIE运行带宽和GPU运行带宽,计算大模型在GPU上每组执行推理的层数K;根据层数K将每组模型参数划分为静态参数和动态参数之后,将静态参数加载到GPU显存,并将动态参数保存在CPU内存,以在GPU显存中生成额外键值缓存与动态参数的共享物理显存区域;在GPU上执行第i组的模型推理时,通过PCIE将第i+1组动态参数加载到共享物理显存区域中;其中,第i组的模型推理时间与加载第i+1组动态参数的时间相当。本发明可以利用闲置的CPU内存和PCIE带宽,减少模型参数在显存的总占用,并且通过推理计算和动态参数加载流水线并行,减少动态加载模型带来的额外开销。

    一种大模型键值缓存量化超参数选择方法及系统

    公开(公告)号:CN119623584A

    公开(公告)日:2025-03-14

    申请号:CN202411541171.5

    申请日:2024-10-31

    Abstract: 本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。

    一种面向AIoT的多任务本地协同推理方法及系统

    公开(公告)号:CN116306943B

    公开(公告)日:2023-10-17

    申请号:CN202310254000.3

    申请日:2023-03-16

    Abstract: 本发明提供一种面向AIoT的多任务本地协同推理方法及系统,属于分布式机器学习领域。本发明通过AIoT客户端将客户端本地模型切片推理的中间结果通过并行通信局域网发送至本地服务器,本地服务器使用同一模型切片对中的对应模型切片初始化推理引擎并完成推理过程,随后将结果回传至原客户端。本发明使用局部贪心搜索对协同推理中所用的模型切片进行通信优化,使用内存复用和内存替换加速推理引擎初始化,通过两级并行执行流来执行的协同推理任务。本发明使用本地设备和局域网进行协同推理,避免了传统方法中的隐私泄露和网络波动问题,为大量AIoT客户端提供低延迟的协同推理服务,提升了系统处理协同推理任务的吞吐量。

    一种自适应负载均衡方法及系统

    公开(公告)号:CN116360987A

    公开(公告)日:2023-06-30

    申请号:CN202310261234.0

    申请日:2023-03-17

    Abstract: 本发明提供一种自适应负载均衡方法及系统,属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务,本方法在拥塞延迟变高且在执行流之间不均衡时,依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡,提供了比传统的负载均衡方法更细粒度的负载均衡,能够降低拥塞延迟和拥塞延迟的波动,提升服务器处理来自多个客户端的任务的性能。

    一种面向AIoT的多任务本地协同推理方法及系统

    公开(公告)号:CN116306943A

    公开(公告)日:2023-06-23

    申请号:CN202310254000.3

    申请日:2023-03-16

    Abstract: 本发明提供一种面向AIoT的多任务本地协同推理方法及系统,属于分布式机器学习领域。本发明通过AIoT客户端将客户端本地模型切片推理的中间结果通过并行通信局域网发送至本地服务器,本地服务器使用同一模型切片对中的对应模型切片初始化推理引擎并完成推理过程,随后将结果回传至原客户端。本发明使用局部贪心搜索对协同推理中所用的模型切片进行通信优化,使用内存复用和内存替换加速推理引擎初始化,通过两级并行执行流来执行的协同推理任务。本发明使用本地设备和局域网进行协同推理,避免了传统方法中的隐私泄露和网络波动问题,为大量AIoT客户端提供低延迟的协同推理服务,提升了系统处理协同推理任务的吞吐量。

    一种自适应负载均衡方法及系统

    公开(公告)号:CN116360987B

    公开(公告)日:2023-09-12

    申请号:CN202310261234.0

    申请日:2023-03-17

    Abstract: 本发明提供一种自适应负载均衡方法及系统,属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务,本方法在拥塞延迟变高且在执行流之间不均衡时,依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡,提供了比传统的负载均衡方法更细粒度的负载均衡,能够降低拥塞延迟和拥塞延迟的波动,提升服务器处理来自多个客户端的任务的性能。

    一种基于prompt的自动编译构建C++项目方法

    公开(公告)号:CN118377469A

    公开(公告)日:2024-07-23

    申请号:CN202410476340.5

    申请日:2024-04-19

    Abstract: 本发明公开了一种基于prompt的自动编译构建C++项目方法。本方法为:根据待编译项目中各项目模块的依赖关系生成依赖关系图;根据依赖关系图选择当前没有前置依赖的项目模块;根据所选大语言模型构建初始prompt范式,根据初始prompt范式和待编译项目的项目目录生成相应初始prompt并输入大语言模型,自动生成当前项目模块的CMakeLists.txt文件;根据项目模块的CMakeLists.txt文件对项目模块进行编译构建并测试;测试通过后判断该项目模块是否依赖子模块,如果存在依赖子模块则对该项目模块及其子模块进行集成测试,测试通过后从依赖关系图中移除构建完成的项目模块,直至完成所有项目模块。

Patent Agency Ranking