-
公开(公告)号:CN111913748A
公开(公告)日:2020-11-10
申请号:CN202010669721.7
申请日:2020-07-13
Applicant: 中国科学院软件研究所
IPC: G06F9/38
Abstract: 本发明公开了一种适合复杂异构系统的HPL矩阵更新优化方法,其特征在于,对HPL矩阵更新的行交换进行优化:在执行HPL的第一分段行交换完成、上一次循环矩阵更新和当前进程接收到下一次循环的行交换信息之后,执行第一分段的下一次循环的行交换。对Long行交换通信方法优化,将spread过程接收缓冲与roll过程发送缓冲分离,当前行进程执行roll过程前,将数据拷贝到roll发送缓冲区;在roll过程执行网络传输的同时,将spread所需的数据传输到MPI发送缓冲区;roll执行完成MPI网络通信后,开启执行spread过程,同时把roll接收的数据异步传输到GPU。本发明能够充分发挥GPU的计算能力。
-
公开(公告)号:CN111913748B
公开(公告)日:2022-05-24
申请号:CN202010669721.7
申请日:2020-07-13
Applicant: 中国科学院软件研究所
IPC: G06F9/38
Abstract: 本发明公开了一种适合复杂异构系统的HPL矩阵更新优化方法,其特征在于,对HPL矩阵更新的行交换进行优化:在执行HPL的第一分段行交换完成、上一次循环矩阵更新和当前进程接收到下一次循环的行交换信息之后,执行第一分段的下一次循环的行交换。对Long行交换通信方法优化,将spread过程接收缓冲与roll过程发送缓冲分离,当前行进程执行roll过程前,将数据拷贝到roll发送缓冲区;在roll过程执行网络传输的同时,将spread所需的数据传输到MPI发送缓冲区;roll执行完成MPI网络通信后,开启执行spread过程,同时把roll接收的数据异步传输到GPU。本发明能够充分发挥GPU的计算能力。
-
公开(公告)号:CN119106710A
公开(公告)日:2024-12-10
申请号:CN202411100814.2
申请日:2024-08-12
Applicant: 中国科学院软件研究所
IPC: G06N3/0464 , G06N3/063
Abstract: 本发明公开及一种适用于ARMv8多核架构的Winograd卷积优化方法及系统,属于深度学习技术领域。所述方法包括:确定tile分块值Tblk、输入通道分块值Cblk和输出通道分块值Kblk,并依据所述tile分块值Tblk划分输入数据,得到tile分块;通过双层嵌套循环完成滤波器的整体域转换,并将整体域转换结果按第一矩阵乘法数据布局存储到FilterOut数组;按tile分块值Tblk遍历tile分块,对每一tile分块执行块内输入转换、耦合的矩阵乘法和输出转换后,得到Winograd卷积优化结果。本发明可以大幅提高Winograd算法的计算效率。
-
公开(公告)号:CN116502028B
公开(公告)日:2023-10-20
申请号:CN202310479328.5
申请日:2023-04-28
Applicant: 中国科学院软件研究所
Abstract: 本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后,对第i个维度的压缩数据依次进行解包和共享指数浮点数解压缩,并基于解压缩数据进行FFT计算,以得到第i+1个维度的FFT计算结果。本公开在压缩数据和解压缩数据时,在利用双重归一化技术来实现共享指数浮点数压缩技术,从而通过减少通信量来减少通信时间,并提高其并行效率。
-
公开(公告)号:CN116525008A
公开(公告)日:2023-08-01
申请号:CN202310476084.5
申请日:2023-04-28
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种面向自主可控异构众核集群的高性能基因比对方法和系统。本发明提出Seeding‑Scoring‑and‑Extension三阶段基因比对流程,通过引入独立的Scoring阶段和使用改进的匹配评分算法,能够在运行时及时、高效地过滤低质量的初始匹配位置,减少后续的比对流程中冗余的计算量和确保其充分的并行性。本发明通过在基因比对中引入分布式计算技术缓解内存消耗与比对性能的矛盾,并提出基于矩阵的NW匹配评分算法和基于张量的SW算法,其核心计算能够利用平台的多种细粒度并行手段予以高效实现。本发明综合利用平台的分布式并行能力、主‑协处理器异步并行能力、处理器内部任务并行能力及细粒度数据并行能力,在充分发挥平台计算性能的同时兼具较高的平台可移植性。
-
公开(公告)号:CN116502028A
公开(公告)日:2023-07-28
申请号:CN202310479328.5
申请日:2023-04-28
Applicant: 中国科学院软件研究所
Abstract: 本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后,对第i个维度的压缩数据依次进行解包和共享指数浮点数解压缩,并基于解压缩数据进行FFT计算,以得到第i+1个维度的FFT计算结果。本公开在压缩数据和解压缩数据时,在利用双重归一化技术来实现共享指数浮点数压缩技术,从而通过减少通信量来减少通信时间,并提高其并行效率。
-
-
-
-
-