-
公开(公告)号:CN118468990B
公开(公告)日:2024-12-27
申请号:CN202410689244.9
申请日:2024-05-30
Applicant: 上海交通大学
IPC: G06N3/0985 , G06N3/084 , G06N3/088 , G06N3/0499 , G06N3/045 , G06N5/04 , G06N5/046 , G06N3/048
Abstract: 本发明提供了一种基于近似规约的预测器联合训练方法及系统,涉及预测器训练技术领域,包括:修改原模型步骤:修改原模型的前馈层结构,在前馈层前嵌入预测器并进行权重初始化;可微步骤:通过二值化转换机制使嵌入预测器的模型结构整体可微;冻结参数步骤:冻结原模型所有参数,仅保留预测器参数可训;训练步骤:采集并清洗通用语料,在通用语料上训练模型,利用多元数据使预测器拟合模型的激活特征。本发明具有高效、安全、自动化等特点,非常适合用于训练模型稀疏性的预测模块。
-
公开(公告)号:CN118446321B
公开(公告)日:2024-11-29
申请号:CN202410689239.8
申请日:2024-05-30
Applicant: 上海交通大学
Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。
-
公开(公告)号:CN115098233B
公开(公告)日:2024-05-28
申请号:CN202210724191.0
申请日:2022-06-24
Applicant: 上海交通大学
Abstract: 本发明提供一种缓存分区感知的调度方法及系统,包括:在系统中分配一个全局映射数据结构,记录各个缓存分区中的相关任务数量;应用程序在启动时调用register_related_threads在操作系统中注册任务组,标识为相关任务,调度器依据此信息进行缓存分区感知的调度;为每个相关任务组分配一个任务映射数据结构,记录一个相关任务组中任务在各个缓存分区中的分布情况;内核调度器在为任务选核时参考任务映射记录的数据,将相关任务调度到同一缓存分区;内核调度器在为任务选核后进行任务映射的更新与全局映射的更新;内核调度器遍历全局映射,若发现缓存分区过载,则通知该缓存分区的任务进行任务迁移。本发明能够提升频繁访问共享变量的任务组的性能。
-
公开(公告)号:CN116775513A
公开(公告)日:2023-09-19
申请号:CN202310700212.X
申请日:2023-06-13
Applicant: 上海交通大学
IPC: G06F12/1036 , G06F9/455
Abstract: 本发明提供了一种支持设备直通虚拟机的物理内存动态分配系统及方法,包括:IO队列:用于虚拟机的共享与重映射,第一时间检查到虚拟机新发送的IO命令;哈希表:用于维护虚拟机物理地址与主机物理地址映射状态,检查每一个虚拟机物理地址是否映射到真实物理地址上;内存池:用于给处理IO缺页的内核模块进行内存分配;共享内存:用于同步页表映射,保证缺页处理过程中页表的一致性。本发明能够为设备直通虚拟机支持动态分配内存的能力,从而同时取得设备虚拟化的高性能与内存管理中的超售。
-
公开(公告)号:CN110058921A
公开(公告)日:2019-07-26
申请号:CN201910190051.8
申请日:2019-03-13
Applicant: 上海交通大学
Abstract: 本发明提供了一种客户虚拟机内存动态隔离和监控方法及系统,在客户虚拟机中分别部署用户请求处理模块、扩展页表异常截获与处理模块、虚拟机监控器交互模块、扩展页表通信模块,在虚拟机监控器中分别部署扩展页表管理模块、应用行为学习模块。利用虚拟机内核地址空间隔离技术,有效防御针对内核关键数据的窃取、针对内存的随意覆写攻击。即使掌握了内核中某一模块的漏洞,也无法随意篡改受保护的关键数据。为不同模块提供不同的隔离执行环境,保护内核不受未授权的数据窃取、内存覆写攻击。使用硬件提供的虚拟化机制,加速扩展页表的切换功能,减少性能开销。
-
公开(公告)号:CN118502963A
公开(公告)日:2024-08-16
申请号:CN202410819759.6
申请日:2024-06-24
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于硬件加速的内存操作卸载系统及方法,包括:运行实例管理模块用于管理线程与协程两种不同粒度的运行实例的生命周期;该模块会在用户程序出现内存操作时拦截并转发到优化系统中,重新设置当前实例的运行时状态,调度到其他非阻塞的实例运行。加速器驱动模块:用于向内核申请加速器设备及运行队列资源、设备/工作队列负载的实时监测与统计、向不同运行队列分发内存操作描述符。该模块会在收到运行实例管理模块消息通知后及时响应以完成用户所需的内存操作任务。本发明能够在节省CPU资源的同时,通过卸载内存操作至加速器提升系统整体运行性能且可适用于多种支持该类加速器的硬件平台。
-
公开(公告)号:CN118468990A
公开(公告)日:2024-08-09
申请号:CN202410689244.9
申请日:2024-05-30
Applicant: 上海交通大学
IPC: G06N3/0985 , G06N3/084 , G06N3/088 , G06N3/0499 , G06N3/045 , G06N5/04 , G06N5/046 , G06N3/048
Abstract: 本发明提供了一种基于近似规约的预测器联合训练方法及系统,涉及预测器训练技术领域,包括:修改原模型步骤:修改原模型的前馈层结构,在前馈层前嵌入预测器并进行权重初始化;可微步骤:通过二值化转换机制使嵌入预测器的模型结构整体可微;冻结参数步骤:冻结原模型所有参数,仅保留预测器参数可训;训练步骤:采集并清洗通用语料,在通用语料上训练模型,利用多元数据使预测器拟合模型的激活特征。本发明具有高效、安全、自动化等特点,非常适合用于训练模型稀疏性的预测模块。
-
公开(公告)号:CN117689025B
公开(公告)日:2024-06-14
申请号:CN202311676610.9
申请日:2023-12-07
Applicant: 上海交通大学
Abstract: 本发明提供了一种适用于消费级显卡的快速大模型推理服务方法和系统,包括:对预测器基线模型进行训练,获得神经元激活预测模型,预测神经元是否激活;将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;根据神经元激活预测的结果,识别并跳过未激活神经元的计算。本发明兼顾模型推理的运算速率和准确率,在提升推理服务性能的同时维持模型本身的准确率。
-
公开(公告)号:CN115756742A
公开(公告)日:2023-03-07
申请号:CN202211455079.8
申请日:2022-11-21
Applicant: 上海交通大学
IPC: G06F9/455 , G06F12/0882 , G06F12/0893 , G06F13/28
Abstract: 本发明提供了一种直通I/O虚拟化的性能优化设计方法、系统、介质及设备,包括:I/O页表配置步骤;DMA缓冲区检测步骤;DMA缓冲区动态迁移步骤。本发明关注到了现有技术并未关注到的性能开销,并且设计方案很好地解决了这部分开销;本发明的设计方案围绕I/O设备进行解决方案设计,相较于以往工作围绕CPU设计方案,更加符合当前硬件发展趋势;本发明的设计方案对于客户机虚拟机无感,客户虚拟机可以不需要修改源码,而可以享受到本发明涉及方案带来的性能提升。
-
公开(公告)号:CN118467136B
公开(公告)日:2025-02-14
申请号:CN202410689237.9
申请日:2024-05-30
Applicant: 上海交通大学
IPC: G06F9/48 , G06F9/54 , G06F12/02 , G06F12/122 , G06F12/123 , G06N5/04
Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。
-
-
-
-
-
-
-
-
-