国产申威26010众核处理器上多维FFT的高性能实现方法

    公开(公告)号:CN107451097A

    公开(公告)日:2017-12-08

    申请号:CN201710658700.3

    申请日:2017-08-04

    Abstract: 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维FFT及其对应的2的幂次和非2的幂次等多种FFT类型,以提升多维FFT运算性能。与开源FFTW库相比,基于本平台的多维FFT计算性能急剧升高,其平均加速比为22.283,最高加速比达到30.340。

    一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法

    公开(公告)号:CN106775594A

    公开(公告)日:2017-05-31

    申请号:CN201710023923.2

    申请日:2017-01-13

    CPC classification number: G06F9/30007

    Abstract: 本发明公开了一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法,由于稀疏矩阵的非零元分布很不规则,该方法设计了静态、动态两种不同的任务划分方法,以适应不同的稀疏矩阵;提出了一套动静态的缓存机制,以提升向量x的访存命中率;提出了一套自适应的优化方法,针对输入的稀疏矩阵,可以动态选出最优的执行参数,以提升其运行性能。本发明采用Matrix Market矩阵集中的16个稀疏矩阵进行测试,相比国产申威处理器单主核运行版SpMV最高有10倍左右加速,平均加速比为6.51。

    一种游泳智能监测装置
    15.
    发明授权

    公开(公告)号:CN105615853B

    公开(公告)日:2019-01-15

    申请号:CN201610177663.X

    申请日:2016-03-25

    Abstract: 本发明涉及一种游泳智能监测装置,其为一种采集人体在水中游泳时的脉搏、体表温度以及水温、水中压力的数据监测游泳者状态并给与游泳者健身锻炼建议的智能装置,该装置依据游泳者游泳时运动的不同剧烈程度脉搏变化不同,以及游泳者所处水中不同深度周围水压不同的原理,根据检测游泳者脉搏频率以及水压情况参数进行监测,当游泳者身体超出预先设置状态时为游泳者预警,可根据游泳者预先提供数据和采集的游泳时的参数为游泳者提供一定的健身锻炼方案。

    一种国产申威26010众核处理器上K-means算法的高性能并行实现方法

    公开(公告)号:CN108509270A

    公开(公告)日:2018-09-07

    申请号:CN201810188779.2

    申请日:2018-03-08

    Inventor: 杨超 李敏 闫碧莹

    CPC classification number: G06F9/5038 G06F9/4881

    Abstract: 本发明提出了一种国产申威26010众核处理器上K-means算法的高性能并行实现方法,基于国产处理器申威26010平台,针对聚类阶段,本发明设计了一种块距离矩阵计算与规约操作融合的计算框架,该框架使用三层分块策略进行任务划分,同时设计协作式的核间数据共享方案和基于寄存器通信机制的簇标签规约方法,及使用双缓冲技术,指令重排等优化技术。针对更新中心点阶段,本发明设计了动态调度的任务划分方式。通过在真实数据集上测试,本发明可以达到最大348.1GFlops的浮点计算性能,相比理论上最大性能,可以获得47%~84%的浮点计算效率,相比不融合的计算方式,可以获得最高1.7x,平均1.3x的加速比。

    一种大整数乘法Comba算法基于OpenMP的并行实现方法

    公开(公告)号:CN104793922B

    公开(公告)日:2017-08-25

    申请号:CN201510220528.4

    申请日:2015-05-04

    Abstract: 本发明公开了一种大整数乘法Comba算法基于OpenMP的并行实现方法,基于64位无符号长整型整数操作,通过添加三个临时数组存储加乘操作计算得到的中间结果,从而解决加乘运算与进位运算的数据相关性,将加乘操作与进位操作分开执行。在加乘操作阶段,基于中间结果每个数位求取时的计算独立性,通过OpenMP多线程编程采用动态调度策略实现加乘操作阶段的并行化,而进位阶段仍然串行执行来并行化Comba算法,提高算法效率。

    一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法

    公开(公告)号:CN105808309B

    公开(公告)日:2019-04-05

    申请号:CN201610130123.6

    申请日:2016-03-08

    Abstract: 本发明提出了一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法,针对国产申威SW1600平台,采用“interface接口‑driver驱动‑kernel汇编核心代码”的三层代码设计框架,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化,解决了编译器针对计算密集型函数GEMM优化不足的问题,大幅提升函数性能,与开源BLAS数学库GotoBLAS相较,平均加速比为4.72,最高加速比为5.61。

Patent Agency Ranking