面向SW26010-Pro处理器的1、2级BLAS函数库的高性能实现方法

    公开(公告)号:CN113641956A

    公开(公告)日:2021-11-12

    申请号:CN202110896851.9

    申请日:2021-08-05

    Abstract: 本发明公开一种面向SW26010‑Pro处理器的1、2级BLAS函数库的高性能实现方法,包括:对问题进行任务划分,产生若干子问题,其中所述问题的结构包括向量、普通矩阵、对称矩阵或三角矩阵;若为向量、普通矩阵或对称矩阵时,将各子问题的运算分配给相应线程;若为三角矩阵时,将子问题对角部分的运算分给0号线程,非对角部分的运算分配给其他相应线程;拼接各线程的运算结果,获取所述问题的解。本发明实现了BLAS 1、2级函数的并行化,解决了线程间的数据依赖问题,并通过自适应调优机制,进一步提升了函数的性能。

    面向SW39000处理器的稠密矩阵乘法的高性能实现方法及装置

    公开(公告)号:CN113849771A

    公开(公告)日:2021-12-28

    申请号:CN202111192491.0

    申请日:2021-10-13

    Abstract: 本发明公开了一种面向SW39000处理器的稠密矩阵乘法的高性能实现方法,包括:在主内存级别分别对非转置矩阵A、非转置矩阵B与问题矩阵C进行任务分块,产生若干的子矩阵δAil、子矩阵δBlj与子矩阵δCij;当子矩阵δCij更新时,在从核阵列的LDM级别分别对子矩阵δCij、子矩阵δAil及子矩阵δBlj进行任务分块,将产生的子块εCuv、子块εAuw及子块εBwv映射至相应的从核;将子矩阵δAil的第t个列块与子矩阵δBlj的第t个行块相乘,生成矩阵δCt;基于子矩阵δCij与各矩阵δCt,更新主内存中的子矩阵δCij,以得到问题矩阵C的输出结果。本发明通过在主内存、从核的LDM以及寄存器上的合理数据布局,充分挖掘从核阵列的并行计算能力,使用了三重缓冲技术隐藏了DMA访存开销和RMA通信开销,使用了指令重排技术提高了GEMM的浮点计算效率。

    面向SW39000处理器的稠密矩阵乘法的高性能实现方法及装置

    公开(公告)号:CN113849771B

    公开(公告)日:2025-02-18

    申请号:CN202111192491.0

    申请日:2021-10-13

    Abstract: 本发明公开了一种面向SW39000处理器的稠密矩阵乘法的高性能实现方法,包括:在主内存级别分别对非转置矩阵A、非转置矩阵B与问题矩阵C进行任务分块,产生若干的子矩阵δAil、子矩阵δBlj与子矩阵δCij;当子矩阵δCij更新时,在从核阵列的LDM级别分别对子矩阵δCij、子矩阵δAil及子矩阵δBlj进行任务分块,将产生的子块εCuv、子块εAuw及子块εBwv映射至相应的从核;将子矩阵δAil的第t个列块与子矩阵δBlj的第t个行块相乘,生成矩阵δCt;基于子矩阵δCij与各矩阵δCt,更新主内存中的子矩阵δCij,以得到问题矩阵C的输出结果。本发明通过在主内存、从核的LDM以及寄存器上的合理数据布局,充分挖掘从核阵列的并行计算能力,使用了三重缓冲技术隐藏了DMA访存开销和RMA通信开销,使用了指令重排技术提高了GEMM的浮点计算效率。

Patent Agency Ranking