基于动态管理模型参数的大模型推理加速方法及系统

    公开(公告)号:CN119883593A

    公开(公告)日:2025-04-25

    申请号:CN202411712814.8

    申请日:2024-11-27

    Abstract: 本发明公开一种基于动态管理模型参数的大模型推理加速方法及系统,属于大模型技术领域。所述方法包括:基于PCIE运行带宽和GPU运行带宽,计算大模型在GPU上每组执行推理的层数K;根据层数K将每组模型参数划分为静态参数和动态参数之后,将静态参数加载到GPU显存,并将动态参数保存在CPU内存,以在GPU显存中生成额外键值缓存与动态参数的共享物理显存区域;在GPU上执行第i组的模型推理时,通过PCIE将第i+1组动态参数加载到共享物理显存区域中;其中,第i组的模型推理时间与加载第i+1组动态参数的时间相当。本发明可以利用闲置的CPU内存和PCIE带宽,减少模型参数在显存的总占用,并且通过推理计算和动态参数加载流水线并行,减少动态加载模型带来的额外开销。

    面向AIoT场景支持RISC-V处理器的操作系统

    公开(公告)号:CN114416031A

    公开(公告)日:2022-04-29

    申请号:CN202111614382.3

    申请日:2021-12-27

    Abstract: 本发明公开了一种面向AIoT场景支持RISC‑V处理器的操作系统,其特征在于,包括支持RISC‑V处理器和轻量级基础C库musl的操作系统引导程序,支持RISC‑V处理器和轻量级基础C库musl的Linux操作系统内核,支持轻量级基础C库musl的基本文件系统,以及支持RISC‑V处理器和轻量级基础C库musl的应用组件;其中,引导程序用于引导Linux操作系统内核启动以及完成RISC‑V处理器和硬件接口设备的初始化工作;基本文件系统挂载在Linux操作系统内核之上,用于管理系统中的文件,应用组件用于支持碎片化的AIoT应用场景。本发明适用于AIoT应用场景的碎片化、高实时性、低功耗的情况。

    一种嵌入式设备实现加速计算和高速网络数据传输方法

    公开(公告)号:CN109862023A

    公开(公告)日:2019-06-07

    申请号:CN201910146218.0

    申请日:2019-02-27

    Inventor: 程丽敏 李玲

    Abstract: 本发明提供一种嵌入式设备实现加速计算和高速网络数据传输方法,解决了在嵌入式设备的异构多核处理器实现高速率计算的情况下,为了满足加速计算的需求,通过设计一种网络传输方法来提高网卡的网络传输速率。其主要方法是嵌入式设备异构多核处理器的微处理器核负责接收加速计算的输入数据和参数数据,然后调用异构多核处理器的加速计算核进行加速计算,最后将计算好的结果数据通过以太网发送出去。本发明采用的方法直接以裸板的方式通过以太网发送和接收不包含TCP/IP包头的网络包,从而保证网络传输的速率与加速计算模块的计算速率相匹配,达到整体的性能提升。

    一种嵌入式设备与主机间底层网络数据传输系统及方法

    公开(公告)号:CN109831395A

    公开(公告)日:2019-05-31

    申请号:CN201910146250.9

    申请日:2019-02-27

    Inventor: 程丽敏 李玲

    Abstract: 本发明提供一种嵌入式设备与主机间底层网络数据传输系统及方法,通过在主机端和嵌入式设备端分别组不包含TCP/IP头的裸包,使得在主机端和嵌入式设备端可以在不经过TCP/IP协议栈的情况下,通过底层网络实现网络数据传输,从而提高了网络传输速率。在硬件层,主机端由处理器、网卡和存储器等构成;嵌入式设备由异构多核处理器、网卡和存储器等构成。在软件层,主机端和嵌入式设备端都包含任务流和数据流,任务流负责处理发送、接收等任务相关信息,数据流负责处理发送和接收数据包等相关信息。主机端和嵌入式设备端通过握手的方式配合工作,从而保证较高的底层网络传输速率。

    面向RISC-V架构的操作系统解耦构建方法及装置

    公开(公告)号:CN118626097B

    公开(公告)日:2024-12-03

    申请号:CN202411090391.0

    申请日:2024-08-09

    Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构的操作系统解耦构建方法及装置,将操作系统中的软件组件划分为三类,既节省了使用RISC‑V扩展指令集特定的编译工具链构建扩展指令集不相关软件组件时可能带来的工程量,又省略了可能存在的连续的bug修复过程。此外,本发明使用通用编译工具链构建的扩展指令集不相关的软件组件可以跨不同扩展指令集组合的RISC‑V处理器复用,随着RISC‑V扩展指令集数量的不断增多,不同扩展指令集组合的RISC‑V处理器的数量也随之膨胀,通过跨不同的RISC‑V处理器复用扩展指令集不相关的软件组件可以节省操作系统开发的时间和工程量,提高开发效率。

    一种自适应负载均衡方法及系统

    公开(公告)号:CN116360987B

    公开(公告)日:2023-09-12

    申请号:CN202310261234.0

    申请日:2023-03-17

    Abstract: 本发明提供一种自适应负载均衡方法及系统,属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务,本方法在拥塞延迟变高且在执行流之间不均衡时,依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡,提供了比传统的负载均衡方法更细粒度的负载均衡,能够降低拥塞延迟和拥塞延迟的波动,提升服务器处理来自多个客户端的任务的性能。

    面向RISC-V架构扩展指令集的可扩展操作系统

    公开(公告)号:CN118689471B

    公开(公告)日:2024-12-03

    申请号:CN202411164761.0

    申请日:2024-08-23

    Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构扩展指令集的可扩展操作系统,硬件层的通用RISC‑V处理器包括基础指令集和部分标准扩展指令集,多样化RISC‑V处理器还包括除了通用处理器所包含的指令集之外的其他标准和非标准扩展指令集;操作系统内核层的通用操作系统内核不支持部分特定的扩展指令集,特定的操作系统内核支持部分特定的扩展指令集;库层的基本模型包括扩展指令集不相关的库,可扩展模型包括扩展指令集不相关的库和扩展指令集相关的库;应用程序层的基本模型包括扩展指令集不相关的应用程序,可扩展模型包括扩展指令集不相关的应用程序和扩展指令集相关的应用程序,无需将对扩展指令集的支持留给用户。

    一种基于prompt的自动编译构建C++项目方法

    公开(公告)号:CN118377469A

    公开(公告)日:2024-07-23

    申请号:CN202410476340.5

    申请日:2024-04-19

    Abstract: 本发明公开了一种基于prompt的自动编译构建C++项目方法。本方法为:根据待编译项目中各项目模块的依赖关系生成依赖关系图;根据依赖关系图选择当前没有前置依赖的项目模块;根据所选大语言模型构建初始prompt范式,根据初始prompt范式和待编译项目的项目目录生成相应初始prompt并输入大语言模型,自动生成当前项目模块的CMakeLists.txt文件;根据项目模块的CMakeLists.txt文件对项目模块进行编译构建并测试;测试通过后判断该项目模块是否依赖子模块,如果存在依赖子模块则对该项目模块及其子模块进行集成测试,测试通过后从依赖关系图中移除构建完成的项目模块,直至完成所有项目模块。

    一种嵌入式设备与主机间底层网络数据传输系统及方法

    公开(公告)号:CN109831395B

    公开(公告)日:2020-08-07

    申请号:CN201910146250.9

    申请日:2019-02-27

    Inventor: 程丽敏 李玲

    Abstract: 本发明提供一种嵌入式设备与主机间底层网络数据传输系统及方法,通过在主机端和嵌入式设备端分别组不包含TCP/IP头的裸包,使得在主机端和嵌入式设备端可以在不经过TCP/IP协议栈的情况下,通过底层网络实现网络数据传输,从而提高了网络传输速率。在硬件层,主机端由处理器、网卡和存储器等构成;嵌入式设备由异构多核处理器、网卡和存储器等构成。在软件层,主机端和嵌入式设备端都包含任务流和数据流,任务流负责处理发送、接收等任务相关信息,数据流负责处理发送和接收数据包等相关信息。主机端和嵌入式设备端通过握手的方式配合工作,从而保证较高的底层网络传输速率。

Patent Agency Ranking