-
公开(公告)号:CN104699449A
公开(公告)日:2015-06-10
申请号:CN201510156109.9
申请日:2015-04-03
Applicant: 中国科学院软件研究所
IPC: G06F7/50
Abstract: 本发明涉及一种基于GMP的大整数加法和减法多核并行化实现方法,首先借助于临时数组来解决加法或减法操作产生的进位或借位带来的数据相关性问题,然后采用将迭代循环for中的运算进行任务划分,基于OpenMP多线程编程实现,使用动态调度策略,多线程并行求取各区域的计算任务的策略解决负载不均衡问题。本发明能借助多核平台,通过充分利用多核条件提高运行速度,在实际应用中有着十分重要的作用。
-
公开(公告)号:CN104731563B
公开(公告)日:2017-07-11
申请号:CN201510157957.1
申请日:2015-04-03
Applicant: 中国科学院软件研究所
Abstract: 一种基于FFT的大整数乘法SSA算法多核并行化实现方法,其是从细粒度的角度对大整数乘法SSA算法进行多核并行优化,其核心是对利用SSA算法求取负循环卷积的四个核心计算过程分别进行并行设计,即分别对分解、FFT正变换、点乘和FFT逆变换四个计算过程进行优化。本发明充分利用硬件的多核资源,提高运行速度,在实际应用中有着十分重要的作用。
-
公开(公告)号:CN105653239A
公开(公告)日:2016-06-08
申请号:CN201510996000.6
申请日:2015-12-25
Applicant: 中国科学院软件研究所
IPC: G06F7/53
CPC classification number: G06F7/5324
Abstract: 本发明公开了一种大整数乘法Karatsuba算法的并行实现方法,基于64位无符号长整型整数操作,通过巧妙的公式转换技巧,指针运算以及存储方式,以解决部分积存储与计算的相关性问题,通过OpenMP多线程编程,采用section任务分担策略将算法进行并行化,从而开启8个线程在递归程序的第一层并行求取8个部分积,每个section负责一个部分积的计算任务,待部分积均求取完毕后进行串行归并,从而并行化Karatsuba算法,提高算法效率。
-
公开(公告)号:CN116502028B
公开(公告)日:2023-10-20
申请号:CN202310479328.5
申请日:2023-04-28
Applicant: 中国科学院软件研究所
Abstract: 本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后,对第i个维度的压缩数据依次进行解包和共享指数浮点数解压缩,并基于解压缩数据进行FFT计算,以得到第i+1个维度的FFT计算结果。本公开在压缩数据和解压缩数据时,在利用双重归一化技术来实现共享指数浮点数压缩技术,从而通过减少通信量来减少通信时间,并提高其并行效率。
-
公开(公告)号:CN116502028A
公开(公告)日:2023-07-28
申请号:CN202310479328.5
申请日:2023-04-28
Applicant: 中国科学院软件研究所
Abstract: 本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后,对第i个维度的压缩数据依次进行解包和共享指数浮点数解压缩,并基于解压缩数据进行FFT计算,以得到第i+1个维度的FFT计算结果。本公开在压缩数据和解压缩数据时,在利用双重归一化技术来实现共享指数浮点数压缩技术,从而通过减少通信量来减少通信时间,并提高其并行效率。
-
公开(公告)号:CN104793922B
公开(公告)日:2017-08-25
申请号:CN201510220528.4
申请日:2015-05-04
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种大整数乘法Comba算法基于OpenMP的并行实现方法,基于64位无符号长整型整数操作,通过添加三个临时数组存储加乘操作计算得到的中间结果,从而解决加乘运算与进位运算的数据相关性,将加乘操作与进位操作分开执行。在加乘操作阶段,基于中间结果每个数位求取时的计算独立性,通过OpenMP多线程编程采用动态调度策略实现加乘操作阶段的并行化,而进位阶段仍然串行执行来并行化Comba算法,提高算法效率。
-
公开(公告)号:CN105808309A
公开(公告)日:2016-07-27
申请号:CN201610130123.6
申请日:2016-03-08
Applicant: 中国科学院软件研究所
Abstract: 本发明提出了一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法,针对国产申威SW1600平台,采用“interface接口?driver驱动?kernel汇编核心代码”的三层代码设计框架,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化,解决了编译器针对计算密集型函数GEMM优化不足的问题,大幅提升函数性能,与开源BLAS数学库GotoBLAS相较,平均加速比为4.72,最高加速比为5.61。
-
-
-
-
-
-