一种稀疏矩阵向量乘访存优化的计算方法

    公开(公告)号:CN114491402A

    公开(公告)日:2022-05-13

    申请号:CN202210066814.X

    申请日:2022-01-20

    Abstract: 本发明公开了一种稀疏矩阵向量乘访存优化的计算方法,适用于DCU和GPU架构,该方法包括:将原始稀疏矩阵按照固定行数划分为若干块,每块由一个线程块单独完成计算,并为每个线程块在LDS开辟固定大小的空间;计算每一线程块需要计算的轮次数;在一个轮次的计算中,每个线程块中所有线程完成若干次非零元素计算并将结果写入LDS;每个线程块中一个或多个线程对LDS的乘法结果进行求和并将结果保存至寄存器;当完成所有轮次计算后,将寄存器中的结果进行进一步计算,并将结果写回显存。本发明基于原始CSR格式,无需预处理,且能充分利用访存合并特性,实现了较高的访存带宽利用。

    面向DCU集群的大规模有限元网格并行分区的方法及装置

    公开(公告)号:CN113239591B

    公开(公告)日:2023-10-27

    申请号:CN202110541398.X

    申请日:2021-05-18

    Abstract: 本发明涉及高性能计算技术领域,特别是指一种面向DCU集群的大规模有限元网格并行分区的方法及装置,该方法包括:将求解区域离散为网格,通过带权对偶图描述离散所得的网格的分布情况,其中,所述带权对偶图中的顶点表示网格,所述带权对偶图中的边表示网格间的连接关系,通过子图划分任务的并行,可以极大提高递归谱二分法划分的速度,而且,在子图划分并行之上,还可以进行谱二分法计算热点的并行,进一步缩短了有限元网格划分的处理时间,解决了串行递归谱二分法存在着划分大规模网格时间需求过长的问题,使得解决问题的效率大大提高。

    面向DCU集群的大规模有限元网格并行分区的方法及装置

    公开(公告)号:CN113239591A

    公开(公告)日:2021-08-10

    申请号:CN202110541398.X

    申请日:2021-05-18

    Abstract: 本发明涉及高性能计算技术领域,特别是指一种面向DCU集群的大规模有限元网格并行分区的方法及装置,该方法包括:将求解区域离散为网格,通过带权对偶图描述离散所得的网格的分布情况,其中,所述带权对偶图中的顶点表示网格,所述带权对偶图中的边表示网格间的连接关系,通过子图划分任务的并行,可以极大提高递归谱二分法划分的速度,而且,在子图划分并行之上,还可以进行谱二分法计算热点的并行,进一步缩短了有限元网格划分的处理时间,解决了串行递归谱二分法存在着划分大规模网格时间需求过长的问题,使得解决问题的效率大大提高。

Patent Agency Ranking