Patent search ap:("中国科学院软件研究所" OR "无锡江南计算技术研究所") AND inv:"敖玉龙" Page 1

1.

发明公开
国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法失效

公开(公告)号：CN107168683A

公开(公告)日：2017-09-15

申请号：CN201710310445.3

申请日：2017-05-05

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 杨超 , 蒋丽娟 , 尹万旺 , 敖玉龙 , 魏迪 , 袁欣辉 , 刘芳芳 , 张鹏

IPC: G06F9/302 , G06F9/38

Abstract: 本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对国产申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

2.

发明授权
申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法失效

公开(公告)号：CN107168683B

公开(公告)日：2020-06-09

申请号：CN201710310445.3

申请日：2017-05-05

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 杨超 , 蒋丽娟 , 尹万旺 , 敖玉龙 , 魏迪 , 袁欣辉 , 刘芳芳 , 张鹏

IPC: G06F9/302 , G06F9/38

Abstract: 本发明公开了申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

3.

发明授权
一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法失效

公开(公告)号：CN107273094B

公开(公告)日：2020-06-16

申请号：CN201710353362.2

申请日：2017-05-18

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 敖玉龙 , 杨超 , 刘芳芳 , 尹万旺 , 魏迪 , 袁欣辉 , 蒋丽娟

IPC: G06F9/30 , G06F9/32 , G06F9/38 , G06F17/16

Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法，基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要，使用了改进ELL格式的数据结构对原始数据结构进行替换，除了包含矩阵数据本身的数据结构，还支持分块着色，索引转换，进程通信，以及向量位置映射等相关的数据结构，并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行，最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中，相应的性能和带宽百分比取得了一致性的加速比，最高分别为18.2和17.6。

4.

发明公开
一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法失效

公开(公告)号：CN107273094A

公开(公告)日：2017-10-20

申请号：CN201710353362.2

申请日：2017-05-18

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 敖玉龙 , 杨超 , 刘芳芳 , 尹万旺 , 魏迪 , 袁欣辉 , 蒋丽娟

IPC: G06F9/30 , G06F9/32 , G06F9/38 , G06F17/16

Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法，基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要，使用了改进ELL格式的数据结构对原始数据结构进行替换，除了包含矩阵数据本身的数据结构，还支持分块着色，索引转换，进程通信，以及向量位置映射等相关的数据结构，并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行，最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中，相应的性能和带宽百分比取得了一致性的加速比，最高分别为18.2和17.6。

Patent Agency Ranking