-
公开(公告)号:CN119903880A
公开(公告)日:2025-04-29
申请号:CN202410831667.X
申请日:2024-06-25
Applicant: 西南科技大学
IPC: G06N3/0495 , G06N3/082
Abstract: 本发明公开了一种基于RISC‑V向量的深度神经网络量化加速方法,该方法包括如下步骤:根据向量寄存器堆大小进行分块,使得其大小和张量分块长度一致;计算分块后的张量的量化尺度(Δ,Quantization Scale)与零点(z,Zero Point)保存到一个全局数据结构中;修改编译器让其能识别拓展的乘除指令并完成编译;在向量架构下进行并行计算加速量化和反量化运算。本发明的目的在于解决目前不同神经网络在RISC‑V架构下量化与反量化时,执行相关的除加操作(Divide‑Accumulate Operation,DIVADD)和乘加操作(Multiply‑Accumulate Operation,MAC)时并行度较低、指令开销较大、数据在内存与计算单元间频繁移动而导致的额外功耗等问题。
-
公开(公告)号:CN118690806A
公开(公告)日:2024-09-24
申请号:CN202410713500.3
申请日:2024-06-04
Applicant: 西南科技大学
Abstract: 本发明公开了一种加速图神经网络中稀疏‑稠密矩阵乘的自适应边采样方法,该方法包括如下步骤:设定GPU共享内存宽度W;将稀疏矩阵图数据转化为CSR格式;针对当前行选择合适的采样策略进行边采样;将采样后的稀疏矩阵图数据加载到共享内存中;将共享内存中的元素与全局内存中代表节点特征的稠密矩阵对应元素计算得到最终结果。本发明的目的在于针对目前边采样加速GNN中的SpMM操作无法同时兼顾准确率和速度的现状,提出一种加速图神经网络中稀疏‑稠密矩阵乘的自适应边采样方法,通过自适应的选择采样策略进行边采样,将采样后的图数据加载到GPU共享内存中,之后从共享内存和全局内存中加载相应的数据进行SpMM操作,以此兼顾边采样加速GNN中SpMM操作的准确率和速度,进而提升GNN运算的性能。
-
公开(公告)号:CN119829899A
公开(公告)日:2025-04-15
申请号:CN202411901839.2
申请日:2024-12-23
Applicant: 西南科技大学
Abstract: 本发明公开了一种基于通用矩阵乘(GEMM)的自适应两级矩阵划分方法,该方法包括如下步骤:确定首次分块大小;将输入的矩阵从全局内存到共享内存进行首次分块处理;加载首次分块后的矩阵到共享内存的双缓冲区;确定再次分块大小;将分好的矩阵块从共享内存到寄存器进行再次分块处理;将再次分块的矩阵块加载到寄存器的缓冲区进行计算。本发明的目的在于针对当前基于GPU的GEMM在数据传输效率、计算资源利用率和负载平衡等方面存在的瓶颈,提出一种基于硬件‑软件协同的并行优化方法。通过在矩阵计算过程中引入自适应两级矩阵分块机制的优化方案,本发明旨在提升数据局部性、减少内存带宽压力,并实现线程间负载的动态平衡。该方法通过减少数据传输延迟和优化计算资源的分配,从源头上提高GEMM运算的效率,满足深度学习和大规模科学计算的高效需求。
-
-