-
公开(公告)号:CN112559952A
公开(公告)日:2021-03-26
申请号:CN201910918627.8
申请日:2019-09-26
Applicant: 无锡江南计算技术研究所
IPC: G06F17/14
Abstract: 本发明公开一种基于序列分层的异构众核快速傅里叶变换方法,包括以下步骤:S1、将待转序列按FFT运算层序进行分块,分块大小为当前运算层一次基本运算的子序列大小,即第1次分块时,每个分块的大小为2,即将输入序列分成大小为2的若干个小块;第2次分块时,每个分块的大小为4,即将输入序列分成大小为4的若干个小块;以此类推,第n次分块时,每个分块的大小为2n,即将输入序列分成大小为2n的若干个小块;一直分到每个分块的大小与输入序列的长度相同为止;S2、将每一层的分块并行地利用异构众核架构进行加速运算,通过片上网络实现分块内部的众核加速。本发明提高大规模数据的FFT算法性能。
-
公开(公告)号:CN112559435A
公开(公告)日:2021-03-26
申请号:CN201910918612.1
申请日:2019-09-26
Applicant: 无锡江南计算技术研究所
IPC: G06F15/173
Abstract: 本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法,包括以下步骤:S1、根据三维数组的最高维对每个从核的任务进行划分,利用异构众核访存接口实现数据的快速传输;S2、利用片上加速接口对矩阵进行分块,通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块,利用异构众核架构对分块进行并行加速,实现高效的数组转置,适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件,极大的提高程序整体性能。
-
公开(公告)号:CN112540936A
公开(公告)日:2021-03-23
申请号:CN201910898087.1
申请日:2019-09-23
Applicant: 无锡江南计算技术研究所
IPC: G06F12/0877 , G06F13/16
Abstract: 本发明公开一种面向异构众核架构的离散访存读写方法,包括以下步骤:S1、将众核组共同组成一个存储块,将参与计算的物理量均匀分布在各计算核心的私有存储空间中,并通过建立索引关系可找到不同下标计算时数组的具体位置,再利用核间通信机制实现核间数据的访问;S2、利用步骤S1的映射同时结合非阻塞通信来批量获取数据,并将重排好的数据存入本地私有高速缓冲区中;S3、将步骤S1以预处理方式独立于计算之外,并根据课题需求可使用主从异步并行方式,继续隐藏建立映射过程带来的额外开销。本发明面向异构众核架构的离散访存读写方法,其利用分布式存储技术及其映射机制与高效非阻塞批处理数据重排方法,有效避免频繁的访主存,提高众核并行效率。
-
公开(公告)号:CN112527394A
公开(公告)日:2021-03-19
申请号:CN201910879931.6
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于指令序列与消息序列指引的深度依赖问题并行方法,包括以下步骤:S1、将解向量按块进行平均划分,通过这种划分将解向量中各元素之间的依赖性转换成向量块之间的依赖性;S2、将一个向量块完成计算称为一次更新操作,此一次更新操作需要以下三个步骤:S21、部分更新:接收前继块发送的数据;S22、自我更新:对块内元素进行计算更新;S23、完成更新:将本向量块求解完毕的元素发送给所依赖的后继块;S3、众核内每个计算核心按顺序计算相应的向量块,重复S2的更新操作步骤,实现了整个流水线作业计算;S4、为每个计算核心设计一串指令流,即指令序列。本发明提高众核内部通信的相互协作性,减少访存时间开销,实现有效加速。
-
公开(公告)号:CN112446004A
公开(公告)日:2021-03-05
申请号:CN201910799250.9
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
IPC: G06F17/11
Abstract: 本发明公开一种非结构网格DILU预条件子众核并行优化算法,包括以下步骤:S1、对所有的从核进行编号,建立众核通信模型;S2、对数组进行分块、编号,各核按块拷入数据,同时按块拷入相应的和;S3、依次确定各块的依赖关系;S4、根据依赖关系,第0块遍历计算一遍,将0号块的值全部更新,同时生成数据数组,发送至后面的块;S5、根据依赖关系,其余块接收来自前在先块的数据,遍历计算后,更新块内数据,同时生成数据数组,发送至后面的块;S6、当某一从核完成更新并将数据发送给需要的核之后,重新拷入新的块。本发明对科学计算领域常见的预条件子并行问题进行代码级优化,极大减少预处理时间,提高优化效率,对大规模线性方程组求解的性能提升效果更加显著。
-
公开(公告)号:CN112445604A
公开(公告)日:2021-03-05
申请号:CN201910799249.6
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种解决非结构网格离散访存问题众核并行优化算法,包括以下步骤:S1、将网格单元周围的网格面通量数据分为若干数据块,并将不同数据块定义为不同属性;S2、将分块后的数据块并行拷入各个从核中;S3、各从核并行遍历拷入的数据块中的数据,按照该数据所对应的l(u)所在的位置,对一个数据块中的若干数据进行局部重排,并记录重排后各个数据位置索引;S4、各从核分别从主存中拷入一个通量数据块,并根据S3记录的位置索引,从重排序后的暂存空间中,拷入通量数据块所需要的Lower数据、Upper数据进行计算。本发明对非结构网格离散访存问题进行基于众核的重排序优化,极大减少了离散访存时间,提高该类问题的求解效率,从而提高整个应用系统的运行效率。
-
公开(公告)号:CN112559032B
公开(公告)日:2023-06-13
申请号:CN201910910103.4
申请日:2019-09-25
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于循环段的众核程序重构方法,包括基于循环段拆分的重构算法和基于循环段合并的重构算法,其中,所述基于循环段拆分的重构算法包括基于主从协同任务的循环段拆分和基于空间压缩的循环段拆分,所述基于循环段合并的重构算法包括基于相似结构的循环段合并和基于增加循环量的循环段合并。本发明根据异构系统的结构特点和性能指标,优化循环段的层次结构和顺序,充分发挥系统的性能优势,从而最大程序提高应用软件的计算性能。
-
公开(公告)号:CN112560163A
公开(公告)日:2021-03-26
申请号:CN201910910098.7
申请日:2019-09-25
Applicant: 无锡江南计算技术研究所
IPC: G06F30/15 , G06F30/28 , G06F30/25 , G06F30/23 , G06F111/08 , G06F111/10 , G06F113/08 , G06F119/14
Abstract: 本发明公开一种具有多重条件判别的循环优化方法,包括以下步骤:S1、分析程序运行时的时间热点函数,找出时间热点函数中一个或多个耗时程序段;S2、若S1中找到的循环段为多重条件判别的循环段,执行下一步;S3、开始第一重循环;S4、开始第二重循环;S5、重复类似S3或S4过程;S6、判断最内层循环条件的逻辑值:若为“真”,进行原方法的核心计算、执行S6,若为“假”,直接开始最内层循环的下一个值计算;S7、重复步骤S6,完成最内层循环计算;S8、依据步骤S7的处理方法,依次完成S5、S4、S3步骤相应的循环,完成整个多重循环段的计算。本发明使大规模并行计算的性能有显著提升,提高相关问题的求解效率,从而提高整个应用系统的计算运行效率,对实际工程课题的数值模拟有重要意义。
-
公开(公告)号:CN112445603A
公开(公告)日:2021-03-05
申请号:CN201910799247.7
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种非结构网格主从动态并行预处理方法,基于由多个物理块构成的千万及以上量级规模的网格,包括以下步骤:S1、主进程按照物理块顺序分配任务,将每个物理块的网格信息分发至各从进程;S2、从进程接收来自主进程的任务,并对每个物理块内的网格单元进行预处理;S3、从进程将预处理结果发回至主进程,并向主进程申请下一组网格进行预处理;S4、主进程将所有网格组分发完后,向从进程发送结束信号;S5、从进程收到结束信号后,从进程结束。本发明能满足千万及以上量级网格规模的数值模拟需求,解决大规模非结构网格预处理内存需求过大和效率低的问题。
-
-
-
-
-
-
-
-
-