-
公开(公告)号:CN119883593A
公开(公告)日:2025-04-25
申请号:CN202411712814.8
申请日:2024-11-27
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种基于动态管理模型参数的大模型推理加速方法及系统,属于大模型技术领域。所述方法包括:基于PCIE运行带宽和GPU运行带宽,计算大模型在GPU上每组执行推理的层数K;根据层数K将每组模型参数划分为静态参数和动态参数之后,将静态参数加载到GPU显存,并将动态参数保存在CPU内存,以在GPU显存中生成额外键值缓存与动态参数的共享物理显存区域;在GPU上执行第i组的模型推理时,通过PCIE将第i+1组动态参数加载到共享物理显存区域中;其中,第i组的模型推理时间与加载第i+1组动态参数的时间相当。本发明可以利用闲置的CPU内存和PCIE带宽,减少模型参数在显存的总占用,并且通过推理计算和动态参数加载流水线并行,减少动态加载模型带来的额外开销。
-
公开(公告)号:CN118626097B
公开(公告)日:2024-12-03
申请号:CN202411090391.0
申请日:2024-08-09
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构的操作系统解耦构建方法及装置,将操作系统中的软件组件划分为三类,既节省了使用RISC‑V扩展指令集特定的编译工具链构建扩展指令集不相关软件组件时可能带来的工程量,又省略了可能存在的连续的bug修复过程。此外,本发明使用通用编译工具链构建的扩展指令集不相关的软件组件可以跨不同扩展指令集组合的RISC‑V处理器复用,随着RISC‑V扩展指令集数量的不断增多,不同扩展指令集组合的RISC‑V处理器的数量也随之膨胀,通过跨不同的RISC‑V处理器复用扩展指令集不相关的软件组件可以节省操作系统开发的时间和工程量,提高开发效率。
-
公开(公告)号:CN118689471B
公开(公告)日:2024-12-03
申请号:CN202411164761.0
申请日:2024-08-23
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构扩展指令集的可扩展操作系统,硬件层的通用RISC‑V处理器包括基础指令集和部分标准扩展指令集,多样化RISC‑V处理器还包括除了通用处理器所包含的指令集之外的其他标准和非标准扩展指令集;操作系统内核层的通用操作系统内核不支持部分特定的扩展指令集,特定的操作系统内核支持部分特定的扩展指令集;库层的基本模型包括扩展指令集不相关的库,可扩展模型包括扩展指令集不相关的库和扩展指令集相关的库;应用程序层的基本模型包括扩展指令集不相关的应用程序,可扩展模型包括扩展指令集不相关的应用程序和扩展指令集相关的应用程序,无需将对扩展指令集的支持留给用户。
-
公开(公告)号:CN118689471A
公开(公告)日:2024-09-24
申请号:CN202411164761.0
申请日:2024-08-23
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构扩展指令集的可扩展操作系统,硬件层的通用RISC‑V处理器包括基础指令集和部分标准扩展指令集,多样化RISC‑V处理器还包括除了通用处理器所包含的指令集之外的其他标准和非标准扩展指令集;操作系统内核层的通用操作系统内核不支持部分特定的扩展指令集,特定的操作系统内核支持部分特定的扩展指令集;库层的基本模型包括扩展指令集不相关的库,可扩展模型包括扩展指令集不相关的库和扩展指令集相关的库;应用程序层的基本模型包括扩展指令集不相关的应用程序,可扩展模型包括扩展指令集不相关的应用程序和扩展指令集相关的应用程序,无需将对扩展指令集的支持留给用户。
-
公开(公告)号:CN118626097A
公开(公告)日:2024-09-10
申请号:CN202411090391.0
申请日:2024-08-09
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构的操作系统解耦构建方法及装置,将操作系统中的软件组件划分为三类,既节省了使用RISC‑V扩展指令集特定的编译工具链构建扩展指令集不相关软件组件时可能带来的工程量,又省略了可能存在的连续的bug修复过程。此外,本发明使用通用编译工具链构建的扩展指令集不相关的软件组件可以跨不同扩展指令集组合的RISC‑V处理器复用,随着RISC‑V扩展指令集数量的不断增多,不同扩展指令集组合的RISC‑V处理器的数量也随之膨胀,通过跨不同的RISC‑V处理器复用扩展指令集不相关的软件组件可以节省操作系统开发的时间和工程量,提高开发效率。
-
-
-
-