-
公开(公告)号:CN113849771B
公开(公告)日:2025-02-18
申请号:CN202111192491.0
申请日:2021-10-13
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种面向SW39000处理器的稠密矩阵乘法的高性能实现方法,包括:在主内存级别分别对非转置矩阵A、非转置矩阵B与问题矩阵C进行任务分块,产生若干的子矩阵δAil、子矩阵δBlj与子矩阵δCij;当子矩阵δCij更新时,在从核阵列的LDM级别分别对子矩阵δCij、子矩阵δAil及子矩阵δBlj进行任务分块,将产生的子块εCuv、子块εAuw及子块εBwv映射至相应的从核;将子矩阵δAil的第t个列块与子矩阵δBlj的第t个行块相乘,生成矩阵δCt;基于子矩阵δCij与各矩阵δCt,更新主内存中的子矩阵δCij,以得到问题矩阵C的输出结果。本发明通过在主内存、从核的LDM以及寄存器上的合理数据布局,充分挖掘从核阵列的并行计算能力,使用了三重缓冲技术隐藏了DMA访存开销和RMA通信开销,使用了指令重排技术提高了GEMM的浮点计算效率。
-
公开(公告)号:CN113297537A
公开(公告)日:2021-08-24
申请号:CN202110623380.4
申请日:2021-06-04
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种面向GPU平台的稀疏结构化三角方程组求解的高性能实现方法和装置。本发明针对结构化问题的特点提出了一种改进的线程资源分配策略,有效改善了现有方法资源分配不均衡的问题。本发明还结合当今主流商用GPU的架构特点,利用硬件谓词执行等一系列手段,提供一套该算法的高效实现方法。本发明提供的算法框架处理规则结构化问题的性能大幅优于目前商用以及尚处研究阶段的框架。
-
公开(公告)号:CN110942504B
公开(公告)日:2021-07-27
申请号:CN201911047165.3
申请日:2019-10-30
Applicant: 中国科学院软件研究所
IPC: G06T15/00
Abstract: 本发明公开一种众核平台上面向规则网格问题的结构化着色方法,包括如下步骤:步骤一、依赖特性分析:对按照stencil模板格式生成的计算问题中的各计算任务之间的依赖特性进行分析,包括依赖传递特性分析和强弱依赖方向分析;步骤二、参数搜索:根据依赖特性分析结果,使用四种参数搜索模式进行最优的着色规则参数搜索;步骤三、计算任务划分:根据最优的着色规则参数为每个计算任务着色,并将相同颜色的计算任务分为一组,不同颜色的计算任务分为不同组,总的颜色数即为计算任务的总的划分组数,完成计算任务的划分;本发明保证了在相同颜色数的限制下,保留更多的核心依赖关系,从而有效减少了计算的整体迭代次数,并提高了着色质量。
-
公开(公告)号:CN105653239B
公开(公告)日:2018-06-22
申请号:CN201510996000.6
申请日:2015-12-25
Applicant: 中国科学院软件研究所
IPC: G06F7/53
Abstract: 本发明公开了一种大整数乘法Karatsuba算法的并行实现方法,基于64位无符号长整型整数操作,通过巧妙的公式转换技巧,指针运算以及存储方式,以解决部分积存储与计算的相关性问题,通过OpenMP多线程编程,采用section任务分担策略将算法进行并行化,从而开启8个线程在递归程序的第一层并行求取8个部分积,每个section负责一个部分积的计算任务,待部分积均求取完毕后进行串行归并,从而并行化Karatsuba算法,提高算法效率。
-
公开(公告)号:CN107451097A
公开(公告)日:2017-12-08
申请号:CN201710658700.3
申请日:2017-08-04
Applicant: 中国科学院软件研究所
IPC: G06F17/14
Abstract: 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维FFT及其对应的2的幂次和非2的幂次等多种FFT类型,以提升多维FFT运算性能。与开源FFTW库相比,基于本平台的多维FFT计算性能急剧升高,其平均加速比为22.283,最高加速比达到30.340。
-
公开(公告)号:CN106775594A
公开(公告)日:2017-05-31
申请号:CN201710023923.2
申请日:2017-01-13
Applicant: 中国科学院软件研究所
IPC: G06F9/30
CPC classification number: G06F9/30007
Abstract: 本发明公开了一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法,由于稀疏矩阵的非零元分布很不规则,该方法设计了静态、动态两种不同的任务划分方法,以适应不同的稀疏矩阵;提出了一套动静态的缓存机制,以提升向量x的访存命中率;提出了一套自适应的优化方法,针对输入的稀疏矩阵,可以动态选出最优的执行参数,以提升其运行性能。本发明采用Matrix Market矩阵集中的16个稀疏矩阵进行测试,相比国产申威处理器单主核运行版SpMV最高有10倍左右加速,平均加速比为6.51。
-
公开(公告)号:CN105615853A
公开(公告)日:2016-06-01
申请号:CN201610177663.X
申请日:2016-03-25
Applicant: 中国科学院软件研究所 , 北京安鼎兴科科技有限公司
IPC: A61B5/0205 , A61B5/01 , A61B5/02 , G01D21/02
CPC classification number: A61B5/02055 , A61B5/01 , A61B5/02 , A61B5/6801 , A61B5/746 , G01D21/02
Abstract: 本发明涉及一种游泳智能监测装置,其为一种采集人体在水中游泳时的脉搏、体表温度以及水温、水中压力的数据监测游泳者状态并给与游泳者健身锻炼建议的智能装置,该装置依据游泳者游泳时运动的不同剧烈程度脉搏变化不同,以及游泳者所处水中不同深度周围水压不同的原理,根据检测游泳者脉搏频率以及水压情况参数进行监测,当游泳者身体超出预先设置状态时为游泳者预警,可根据游泳者预先提供数据和采集的游泳时的参数为游泳者提供一定的健身锻炼方案。
-
公开(公告)号:CN113297537B
公开(公告)日:2022-10-25
申请号:CN202110623380.4
申请日:2021-06-04
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种面向GPU平台的稀疏结构化三角方程组求解的高性能实现方法和装置。本发明针对结构化问题的特点提出了一种改进的线程资源分配策略,有效改善了现有方法资源分配不均衡的问题。本发明还结合当今主流商用GPU的架构特点,利用硬件谓词执行等一系列手段,提供一套该算法的高效实现方法。本发明提供的算法框架处理规则结构化问题的性能大幅优于目前商用以及尚处研究阶段的框架。
-
公开(公告)号:CN105615853B
公开(公告)日:2019-01-15
申请号:CN201610177663.X
申请日:2016-03-25
Applicant: 中国科学院软件研究所 , 北京安鼎兴科科技有限公司
IPC: A61B5/0205 , A61B5/01 , A61B5/02 , G01D21/02
Abstract: 本发明涉及一种游泳智能监测装置,其为一种采集人体在水中游泳时的脉搏、体表温度以及水温、水中压力的数据监测游泳者状态并给与游泳者健身锻炼建议的智能装置,该装置依据游泳者游泳时运动的不同剧烈程度脉搏变化不同,以及游泳者所处水中不同深度周围水压不同的原理,根据检测游泳者脉搏频率以及水压情况参数进行监测,当游泳者身体超出预先设置状态时为游泳者预警,可根据游泳者预先提供数据和采集的游泳时的参数为游泳者提供一定的健身锻炼方案。
-
公开(公告)号:CN108509270A
公开(公告)日:2018-09-07
申请号:CN201810188779.2
申请日:2018-03-08
Applicant: 中国科学院软件研究所
CPC classification number: G06F9/5038 , G06F9/4881
Abstract: 本发明提出了一种国产申威26010众核处理器上K-means算法的高性能并行实现方法,基于国产处理器申威26010平台,针对聚类阶段,本发明设计了一种块距离矩阵计算与规约操作融合的计算框架,该框架使用三层分块策略进行任务划分,同时设计协作式的核间数据共享方案和基于寄存器通信机制的簇标签规约方法,及使用双缓冲技术,指令重排等优化技术。针对更新中心点阶段,本发明设计了动态调度的任务划分方式。通过在真实数据集上测试,本发明可以达到最大348.1GFlops的浮点计算性能,相比理论上最大性能,可以获得47%~84%的浮点计算效率,相比不融合的计算方式,可以获得最高1.7x,平均1.3x的加速比。
-
-
-
-
-
-
-
-
-