-
公开(公告)号:CN107451097A
公开(公告)日:2017-12-08
申请号:CN201710658700.3
申请日:2017-08-04
Applicant: 中国科学院软件研究所
IPC: G06F17/14
Abstract: 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维FFT及其对应的2的幂次和非2的幂次等多种FFT类型,以提升多维FFT运算性能。与开源FFTW库相比,基于本平台的多维FFT计算性能急剧升高,其平均加速比为22.283,最高加速比达到30.340。
-
公开(公告)号:CN106775594A
公开(公告)日:2017-05-31
申请号:CN201710023923.2
申请日:2017-01-13
Applicant: 中国科学院软件研究所
IPC: G06F9/30
CPC classification number: G06F9/30007
Abstract: 本发明公开了一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法,由于稀疏矩阵的非零元分布很不规则,该方法设计了静态、动态两种不同的任务划分方法,以适应不同的稀疏矩阵;提出了一套动静态的缓存机制,以提升向量x的访存命中率;提出了一套自适应的优化方法,针对输入的稀疏矩阵,可以动态选出最优的执行参数,以提升其运行性能。本发明采用Matrix Market矩阵集中的16个稀疏矩阵进行测试,相比国产申威处理器单主核运行版SpMV最高有10倍左右加速,平均加速比为6.51。
-
公开(公告)号:CN105615853A
公开(公告)日:2016-06-01
申请号:CN201610177663.X
申请日:2016-03-25
Applicant: 中国科学院软件研究所 , 北京安鼎兴科科技有限公司
IPC: A61B5/0205 , A61B5/01 , A61B5/02 , G01D21/02
CPC classification number: A61B5/02055 , A61B5/01 , A61B5/02 , A61B5/6801 , A61B5/746 , G01D21/02
Abstract: 本发明涉及一种游泳智能监测装置,其为一种采集人体在水中游泳时的脉搏、体表温度以及水温、水中压力的数据监测游泳者状态并给与游泳者健身锻炼建议的智能装置,该装置依据游泳者游泳时运动的不同剧烈程度脉搏变化不同,以及游泳者所处水中不同深度周围水压不同的原理,根据检测游泳者脉搏频率以及水压情况参数进行监测,当游泳者身体超出预先设置状态时为游泳者预警,可根据游泳者预先提供数据和采集的游泳时的参数为游泳者提供一定的健身锻炼方案。
-
公开(公告)号:CN113297537B
公开(公告)日:2022-10-25
申请号:CN202110623380.4
申请日:2021-06-04
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种面向GPU平台的稀疏结构化三角方程组求解的高性能实现方法和装置。本发明针对结构化问题的特点提出了一种改进的线程资源分配策略,有效改善了现有方法资源分配不均衡的问题。本发明还结合当今主流商用GPU的架构特点,利用硬件谓词执行等一系列手段,提供一套该算法的高效实现方法。本发明提供的算法框架处理规则结构化问题的性能大幅优于目前商用以及尚处研究阶段的框架。
-
公开(公告)号:CN105615853B
公开(公告)日:2019-01-15
申请号:CN201610177663.X
申请日:2016-03-25
Applicant: 中国科学院软件研究所 , 北京安鼎兴科科技有限公司
IPC: A61B5/0205 , A61B5/01 , A61B5/02 , G01D21/02
Abstract: 本发明涉及一种游泳智能监测装置,其为一种采集人体在水中游泳时的脉搏、体表温度以及水温、水中压力的数据监测游泳者状态并给与游泳者健身锻炼建议的智能装置,该装置依据游泳者游泳时运动的不同剧烈程度脉搏变化不同,以及游泳者所处水中不同深度周围水压不同的原理,根据检测游泳者脉搏频率以及水压情况参数进行监测,当游泳者身体超出预先设置状态时为游泳者预警,可根据游泳者预先提供数据和采集的游泳时的参数为游泳者提供一定的健身锻炼方案。
-
公开(公告)号:CN108509270A
公开(公告)日:2018-09-07
申请号:CN201810188779.2
申请日:2018-03-08
Applicant: 中国科学院软件研究所
CPC classification number: G06F9/5038 , G06F9/4881
Abstract: 本发明提出了一种国产申威26010众核处理器上K-means算法的高性能并行实现方法,基于国产处理器申威26010平台,针对聚类阶段,本发明设计了一种块距离矩阵计算与规约操作融合的计算框架,该框架使用三层分块策略进行任务划分,同时设计协作式的核间数据共享方案和基于寄存器通信机制的簇标签规约方法,及使用双缓冲技术,指令重排等优化技术。针对更新中心点阶段,本发明设计了动态调度的任务划分方式。通过在真实数据集上测试,本发明可以达到最大348.1GFlops的浮点计算性能,相比理论上最大性能,可以获得47%~84%的浮点计算效率,相比不融合的计算方式,可以获得最高1.7x,平均1.3x的加速比。
-
公开(公告)号:CN104793922B
公开(公告)日:2017-08-25
申请号:CN201510220528.4
申请日:2015-05-04
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种大整数乘法Comba算法基于OpenMP的并行实现方法,基于64位无符号长整型整数操作,通过添加三个临时数组存储加乘操作计算得到的中间结果,从而解决加乘运算与进位运算的数据相关性,将加乘操作与进位操作分开执行。在加乘操作阶段,基于中间结果每个数位求取时的计算独立性,通过OpenMP多线程编程采用动态调度策略实现加乘操作阶段的并行化,而进位阶段仍然串行执行来并行化Comba算法,提高算法效率。
-
公开(公告)号:CN105808309A
公开(公告)日:2016-07-27
申请号:CN201610130123.6
申请日:2016-03-08
Applicant: 中国科学院软件研究所
Abstract: 本发明提出了一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法,针对国产申威SW1600平台,采用“interface接口?driver驱动?kernel汇编核心代码”的三层代码设计框架,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化,解决了编译器针对计算密集型函数GEMM优化不足的问题,大幅提升函数性能,与开源BLAS数学库GotoBLAS相较,平均加速比为4.72,最高加速比为5.61。
-
公开(公告)号:CN105808309B
公开(公告)日:2019-04-05
申请号:CN201610130123.6
申请日:2016-03-08
Applicant: 中国科学院软件研究所
Abstract: 本发明提出了一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法,针对国产申威SW1600平台,采用“interface接口‑driver驱动‑kernel汇编核心代码”的三层代码设计框架,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化,解决了编译器针对计算密集型函数GEMM优化不足的问题,大幅提升函数性能,与开源BLAS数学库GotoBLAS相较,平均加速比为4.72,最高加速比为5.61。
-
公开(公告)号:CN104731563A
公开(公告)日:2015-06-24
申请号:CN201510157957.1
申请日:2015-04-03
Applicant: 中国科学院软件研究所
Abstract: 一种基于FFT的大整数乘法SSA算法多核并行化实现方法,其是从细粒度的角度对大整数乘法SSA算法进行多核并行优化,其核心是对利用SSA算法求取负循环卷积的四个核心计算过程分别进行并行设计,即分别对分解、FFT正变换、点乘和FFT逆变换四个计算过程进行优化。本发明充分利用硬件的多核资源,提高运行速度,在实际应用中有着十分重要的作用。
-
-
-
-
-
-
-
-
-