Patent search ap:("无锡江南计算技术研究所") AND inv:"魏迪" Page 5

41.

发明公开
国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法失效

公开(公告)号：CN107168683A

公开(公告)日：2017-09-15

申请号：CN201710310445.3

申请日：2017-05-05

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 杨超 , 蒋丽娟 , 尹万旺 , 敖玉龙 , 魏迪 , 袁欣辉 , 刘芳芳 , 张鹏

IPC: G06F9/302 , G06F9/38

Abstract: 本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对国产申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

Patent Agency Ranking