基于国产申威26010处理器的基2一维FFT的高性能实现方法

    公开(公告)号:CN106933777B

    公开(公告)日:2019-03-19

    申请号:CN201710150446.6

    申请日:2017-03-14

    Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。

    基于国产申威26010处理器的基2一维FFT的高性能实现方法

    公开(公告)号:CN106933777A

    公开(公告)日:2017-07-07

    申请号:CN201710150446.6

    申请日:2017-03-14

    CPC classification number: G06F17/142

    Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。

    国产申威26010众核处理器上多维FFT的高性能实现方法

    公开(公告)号:CN107451097A

    公开(公告)日:2017-12-08

    申请号:CN201710658700.3

    申请日:2017-08-04

    Abstract: 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维FFT及其对应的2的幂次和非2的幂次等多种FFT类型,以提升多维FFT运算性能。与开源FFTW库相比,基于本平台的多维FFT计算性能急剧升高,其平均加速比为22.283,最高加速比达到30.340。

    国产申威26010众核处理器上多维FFT的高性能实现方法

    公开(公告)号:CN107451097B

    公开(公告)日:2020-02-11

    申请号:CN201710658700.3

    申请日:2017-08-04

    Abstract: 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维FFT及其对应的2的幂次和非2的幂次等多种FFT类型,以提升多维FFT运算性能。与开源FFTW库相比,基于本平台的多维FFT计算性能急剧升高,其平均加速比为22.283,最高加速比达到30.340。

Patent Agency Ranking