-
公开(公告)号:CN118446321B
公开(公告)日:2024-11-29
申请号:CN202410689239.8
申请日:2024-05-30
Applicant: 上海交通大学
Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。
-
公开(公告)号:CN118467136B
公开(公告)日:2025-02-14
申请号:CN202410689237.9
申请日:2024-05-30
Applicant: 上海交通大学
IPC: G06F9/48 , G06F9/54 , G06F12/02 , G06F12/122 , G06F12/123 , G06N5/04
Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。
-
公开(公告)号:CN117632549A
公开(公告)日:2024-03-01
申请号:CN202210962595.3
申请日:2022-08-11
Applicant: 上海交通大学
Abstract: 本发明提供了一种适用于可信执行环境的虚拟机错误恢复方法及系统,该方法首先在应用正常运行过程中收集应用的系统调用的参数和返回值,并将其整理为系统调用日志的形式,日志中仅包含会修改状态的系统调用。然后虚拟机监视器通过使用心跳包探测的方式监控虚拟机是否正常运行。如果虚拟机监视器发现在一定时间内虚拟机没有响应心跳包探测,则认为虚拟机的执行出现了异常,并立即启动错误恢复过程。在错误恢复过程中,运行在可信执行环境内的恢复模块和虚拟机监视器协同工作,通过重放日志的方式,将新的虚拟机重构为与应用一致的状态。与现有技术相比,本发明具有安全、高效、成功率高和易于部署的特点。
-
公开(公告)号:CN118467136A
公开(公告)日:2024-08-09
申请号:CN202410689237.9
申请日:2024-05-30
Applicant: 上海交通大学
IPC: G06F9/48 , G06F9/54 , G06F12/02 , G06F12/122 , G06F12/123 , G06N5/04
Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。
-
公开(公告)号:CN118446321A
公开(公告)日:2024-08-06
申请号:CN202410689239.8
申请日:2024-05-30
Applicant: 上海交通大学
Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。
-
-
-
-