Patent search ap:("中国科学院软件研究所" OR "无锡江南计算技术研究所") AND inv:"袁欣辉" Page 1

1.

发明授权
基于国产申威26010处理器的基2一维FFT的高性能实现方法失效

公开(公告)号：CN106933777B

公开(公告)日：2019-03-19

申请号：CN201710150446.6

申请日：2017-03-14

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 张佳佳 , 杨超 , 尹万旺 , 赵玉文 , 魏迪 , 刘芳芳 , 袁欣辉

IPC: G06F17/14

Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法，基于国产处理器申威26010平台，设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术，同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法，设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算，从而有效解决FFT计算的访存带宽受限问题，有效提升基2一维FFT计算性能。与开源FFTW库相比，基于本平台的基2一维FFT计算性能急剧升高，以FFT计算的每秒浮点运算次数为例，其平均加速比为34.4，最高加速比达到50.3。

2.

发明公开
基于国产申威26010处理器的基2一维FFT的高性能实现方法失效

公开(公告)号：CN106933777A

公开(公告)日：2017-07-07

申请号：CN201710150446.6

申请日：2017-03-14

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 张佳佳 , 杨超 , 尹万旺 , 赵玉文 , 魏迪 , 刘芳芳 , 袁欣辉

IPC: G06F17/14

CPC classification number: G06F17/142

Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法，基于国产处理器申威26010平台，设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术，同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法，设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算，从而有效解决FFT计算的访存带宽受限问题，有效提升基2一维FFT计算性能。与开源FFTW库相比，基于本平台的基2一维FFT计算性能急剧升高，以FFT计算的每秒浮点运算次数为例，其平均加速比为34.4，最高加速比达到50.3。

3.

发明授权
申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法失效

公开(公告)号：CN107168683B

公开(公告)日：2020-06-09

申请号：CN201710310445.3

申请日：2017-05-05

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 杨超 , 蒋丽娟 , 尹万旺 , 敖玉龙 , 魏迪 , 袁欣辉 , 刘芳芳 , 张鹏

IPC: G06F9/302 , G06F9/38

Abstract: 本发明公开了申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

4.

发明公开
国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法失效

公开(公告)号：CN107168683A

公开(公告)日：2017-09-15

申请号：CN201710310445.3

申请日：2017-05-05

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 杨超 , 蒋丽娟 , 尹万旺 , 敖玉龙 , 魏迪 , 袁欣辉 , 刘芳芳 , 张鹏

IPC: G06F9/302 , G06F9/38

Abstract: 本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对国产申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

5.

发明授权
一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法失效

公开(公告)号：CN107273094B

公开(公告)日：2020-06-16

申请号：CN201710353362.2

申请日：2017-05-18

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 敖玉龙 , 杨超 , 刘芳芳 , 尹万旺 , 魏迪 , 袁欣辉 , 蒋丽娟

IPC: G06F9/30 , G06F9/32 , G06F9/38 , G06F17/16

Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法，基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要，使用了改进ELL格式的数据结构对原始数据结构进行替换，除了包含矩阵数据本身的数据结构，还支持分块着色，索引转换，进程通信，以及向量位置映射等相关的数据结构，并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行，最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中，相应的性能和带宽百分比取得了一致性的加速比，最高分别为18.2和17.6。

6.

发明公开
一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法失效

公开(公告)号：CN107273094A

公开(公告)日：2017-10-20

申请号：CN201710353362.2

申请日：2017-05-18

Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所

Inventor： 敖玉龙 , 杨超 , 刘芳芳 , 尹万旺 , 魏迪 , 袁欣辉 , 蒋丽娟

IPC: G06F9/30 , G06F9/32 , G06F9/38 , G06F17/16

Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法，基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要，使用了改进ELL格式的数据结构对原始数据结构进行替换，除了包含矩阵数据本身的数据结构，还支持分块着色，索引转换，进程通信，以及向量位置映射等相关的数据结构，并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行，最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中，相应的性能和带宽百分比取得了一致性的加速比，最高分别为18.2和17.6。

7.

发明公开
一种网格化流水的全收集方法无效

公开(公告)号：CN114221871A

公开(公告)日：2022-03-22

申请号：CN202110381666.6

申请日：2021-04-09

Applicant: 无锡江南计算技术研究所

Inventor： 魏迪 , 王飞 , 孙浩男 , 尹万旺 , 袁欣辉 , 林蓉芬 , 孙强 , 史俊达

IPC: H04L41/12 , H04L67/1095 , H04L12/18

Abstract: 本发明公开一种网格化流水的全收集方法，包括以下步骤：S1、将每个超节点内的进程组织为一个分组，每个分组不必具备同样多的进程；S2、每个分组选出任意一个进程作为代表进程，参与到组间的通信中，由此构成二级网格化通信结构，并将二级网格化通信结构映射到大规模集群互联网络结构；S3、在所述二级网格化通信结构上，先在各组内完成数据的收集和共享，再开启全局流水。本发明能够合理利用资源，实现全收集集合通信中的通信聚合和顶层网络的带宽节省，有效提高了全收集集合通信的性能，对通信密集型应用具有积极影响。

8.

发明公开
一种异构众核架构上的矩阵转置方法审中-实审

公开(公告)号：CN114218523A

公开(公告)日：2022-03-22

申请号：CN202110483033.6

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 袁欣辉 , 林蓉芬 , 尹万旺 , 魏迪 , 孙浩男 , 孙强 , 史俊达 , 王飞

IPC: G06F17/16 , G06F9/30 , G06F15/16

Abstract: 本发明公开一种异构众核架构上的矩阵转置方法，针对大规模矩阵M*N，其中，M%8=0，N%8=0；包括以下步骤：S1、将大规模矩阵M*N以8×8粒度分块；S2、从核阵列共64个从核，利用混洗指令对该分块转置；转置运算前开始读入第k+64个分块进从核LDM，即该从核要处理的下一轮分块；S2.2、如果S2.1中读取的第p轮分块为原矩阵第i行第j列分块，则将其转置后的分块矩阵存储于新矩阵的第j行第i列分块；S2.3、当从核处理完毕第p轮分块；S3、当从核阵列处理完所有分块后，得到原矩阵的转置矩阵。本发明可以充分利用加速指令中的混洗指令进行向量化加速，突破了传统的矩阵转置算法，充分发挥硬件潜力。

9.

发明公开
一种异构众核架构上CPU共享数组引导维选取策略审中-实审

公开(公告)号：CN114218150A

公开(公告)日：2022-03-22

申请号：CN202110481454.5

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 尹万旺 , 袁欣辉 , 林蓉芬 , 魏迪 , 孙浩男 , 孙强 , 史俊达 , 王飞 , 郑岩

IPC: G06F15/167 , G06F9/50 , G06F13/28

Abstract: 本发明公开一种异构众核架构上CPU共享数组引导维选取策略，对矩阵引导维进行如下调整，并存储于CPU共享空间中：S1、申请CPU共享空间时，控制申请空间的首地址即src 128B对界，使得从核DMA取时源地址始终128B对界；S2选取ld=64*(6a+1)，a为满足64*(6a+1)>=N的最小整数值；S3、如果S2中取得的ld%31==0，取a=a+1，使得体冲突问题得到规避；S4、M×N双精度矩阵，行主序，以S3中取得的ld作为引导维，以src为首地址，存储在CPU共享空间中。本发明平衡从核DMA取数据时各个存控上的访存量，实现负载均衡，且规避存控体冲突。

10.

发明公开
一种计算核心加速的通信优化方法审中-实审

公开(公告)号：CN114218147A

公开(公告)日：2022-03-22

申请号：CN202110480202.0

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 何王全 , 魏迪 , 尹万旺 , 袁欣辉 , 孙浩男 , 林蓉芬 , 孙强 , 史俊达 , 王丹云

IPC: G06F15/163

Abstract: 本发明公开一种计算核心加速的通信优化方法，包括以下步骤：S1、控制核心通过检查运算核心的状态参数，感知运算核心是否处于空闲状态；S2、若运算核心处于空闲状态，则利用运算核心的聚合访存能力加速通信中的数据传输或者利用运算核心的计算能力加速通信中的数据计算，实现通信优化；若运算核心不空闲，则利用控制核心正常通信；S3、通信完毕，优化结束。本发明将通信协议的部分步骤卸载至运算核心阵列，利用运算核心来提升通信性能，实现通信支撑服务与异构体系结构的深度融合，以达到加速通信过程的目的。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification