-
公开(公告)号:CN119476487A
公开(公告)日:2025-02-18
申请号:CN202411551388.4
申请日:2024-11-01
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。
-
公开(公告)号:CN117421703A
公开(公告)日:2024-01-19
申请号:CN202311133721.5
申请日:2023-09-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种深度符号回归加速器,包括:执行单元阵列,用于深度符号回归的NN推理运算和BFGS优化运算;片上缓存,与该执行单元阵列通信连接,包括:输入输出缓存,用于存储NN推理运算和BFGS优化运算的输入输出值;NN权值缓存,用于存储NN推理模型的权重;参数缓存,用于存储该执行单元阵列的配置参数;字符串解析模块,与该输入输出缓存通信连接,用于把NN推理运算得到的符号化表达式框架的字符串转化为数学表达式的运算符;控制器,与该执行单元阵列和该片上缓存通信连接,用于控制该执行单元阵列和该片上缓存的访存操作及运算调度。本发明还提出一种基于该深度符号回归加速器的深度符号回归方法。
-