快速提升大语言模型激活稀疏性的方法和系统

    公开(公告)号:CN118468944B

    公开(公告)日:2025-02-14

    申请号:CN202410689242.X

    申请日:2024-05-30

    Abstract: 本发明提供了一种快速提升大语言模型激活稀疏性的方法和系统,包括:步骤1:将大语言模型的前馈层激活函数修改为ReLU激活函数;步骤2:在大语言模型前馈层中用于增强非线性能力的门控线性单元模块的输出后加入ReLU激活函数;步骤3:清洗并混合多来源的预训练语料;步骤4:根据超参数尺度定律选择最优训练超参数;步骤5:在200B的语料上训练模型,训练过程中采用数据并行、模型并行、流水线并行为基础的分布式训练策略;步骤6:将模型在指令对齐,以及人类偏好的数据集中进行模型微调。本发明通过引入更高质量和多元化的语料混合,不仅保持了模型的稀疏性,还提升了模型的整体能力,使其适用的应用场景更加广泛。

    适用于大语言模型稀疏推理的计算与存储方法及系统

    公开(公告)号:CN118467136A

    公开(公告)日:2024-08-09

    申请号:CN202410689237.9

    申请日:2024-05-30

    Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。

    智能手机的大语言模型快速推理方法、装置及系统

    公开(公告)号:CN118446321A

    公开(公告)日:2024-08-06

    申请号:CN202410689239.8

    申请日:2024-05-30

    Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。

    基于可信执行环境的安全虚拟机系统设计方法及系统

    公开(公告)号:CN113703924B

    公开(公告)日:2024-07-26

    申请号:CN202111109365.4

    申请日:2021-09-22

    Abstract: 本发明提供了一种基于可信执行环境的安全虚拟机系统设计方法及系统,包括:将可信虚拟机监控器划分为普通世界虚拟机监控器和安全世界虚拟机监控器:所述普通世界虚拟机监控器负责基础的虚拟机调度、内存管理、设备管理等管理功能;在普通世界虚拟机监控器完成配置时进入可信虚拟机,并触发跨世界切换;所述安全世界虚拟机监控器负责安全性检查,协同保障可信虚拟机的可用性和安全性;安全世界虚拟机监控器使用半虚拟化等方法给可信虚拟机提供I/O功能;普通世界虚拟机监控器和安全世界虚拟机监控器协同动态管理物理内存资源。本发明充分利用了ARM现有的TrustZone硬件特性,对虚拟机透明,这意味着对底层硬件和上层虚拟机都不需要修改,体现了本设计方案的可用性。

    适用于消费级显卡的快速大模型推理服务方法和系统

    公开(公告)号:CN117689025A

    公开(公告)日:2024-03-12

    申请号:CN202311676610.9

    申请日:2023-12-07

    Abstract: 本发明提供了一种适用于消费级显卡的快速大模型推理服务方法和系统,包括:对预测器基线模型进行训练,获得神经元激活预测模型,预测神经元是否激活;将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;根据神经元激活预测的结果,识别并跳过未激活神经元的计算。本发明兼顾模型推理的运算速率和准确率,在提升推理服务性能的同时维持模型本身的准确率。

    基于锁语义实现应用透明的动态处理器缓存分区调度方法和系统

    公开(公告)号:CN117331669A

    公开(公告)日:2024-01-02

    申请号:CN202311390012.5

    申请日:2023-10-24

    Abstract: 本发明提供了一种基于锁语义实现应用透明的动态处理器缓存分区调度方法和系统,包括:步骤1:系统初始化时,内核检测硬件缓存分区特性,将位于同一组缓存分区的CPU核心标记为同一缓存分区核心组;步骤2:多个用户线程获取同一把锁时,内核检测到获取同一把锁的用户态线程信息,将这些线程标记为同一交互线程组;步骤3:在调度过程中,利用定时调度器与定时负载均衡器,将同一交互线程组调度到同一缓存分区核心组。本发明能够透明地识别用户态程序的共享变量线程组、在共享变量线程组动态变化的情况下动态调整调度器以及利用锁的语义优化系统性能。

    缓存分区感知的调度方法及系统

    公开(公告)号:CN115098233A

    公开(公告)日:2022-09-23

    申请号:CN202210724191.0

    申请日:2022-06-24

    Abstract: 本发明提供一种缓存分区感知的调度方法及系统,包括:在系统中分配一个全局映射数据结构,记录各个缓存分区中的相关任务数量;应用程序在启动时调用register_related_threads在操作系统中注册任务组,标识为相关任务,调度器依据此信息进行缓存分区感知的调度;为每个相关任务组分配一个任务映射数据结构,记录一个相关任务组中任务在各个缓存分区中的分布情况;内核调度器在为任务选核时参考任务映射记录的数据,将相关任务调度到同一缓存分区;内核调度器在为任务选核后进行任务映射的更新与全局映射的更新;内核调度器遍历全局映射,若发现缓存分区过载,则通知该缓存分区的任务进行任务迁移。本发明能够提升频繁访问共享变量的任务组的性能。

    客户虚拟机内存动态隔离和监控方法及系统

    公开(公告)号:CN110058921B

    公开(公告)日:2021-06-22

    申请号:CN201910190051.8

    申请日:2019-03-13

    Abstract: 本发明提供了一种客户虚拟机内存动态隔离和监控方法及系统,在客户虚拟机中分别部署用户请求处理模块、扩展页表异常截获与处理模块、虚拟机监控器交互模块、扩展页表通信模块,在虚拟机监控器中分别部署扩展页表管理模块、应用行为学习模块。利用虚拟机内核地址空间隔离技术,有效防御针对内核关键数据的窃取、针对内存的随意覆写攻击。即使掌握了内核中某一模块的漏洞,也无法随意篡改受保护的关键数据。为不同模块提供不同的隔离执行环境,保护内核不受未授权的数据窃取、内存覆写攻击。使用硬件提供的虚拟化机制,加速扩展页表的切换功能,减少性能开销。

Patent Agency Ranking