-
公开(公告)号:CN112202599B
公开(公告)日:2021-08-03
申请号:CN202010956523.9
申请日:2020-09-11
Applicant: 北京科技大学
IPC: H04L12/24
Abstract: 本发明公开了一种针对异构多核平台通信优化的拓扑感知映射方法及系统,该拓扑感知映射方法包括:获取待通信优化的异构多核平台当前运行的并行应用程序的进程通信模式矩阵,以及异构多核平台的处理器节点的拓扑距离矩阵;基于进程通信模式矩阵,根据进程间通信量对并行应用程序的进程进行分组;其中,组与组之间的进程通信量相对少于组内进程通信量;基于拓扑距离矩阵和进程分组结果,将分组后位于同一组内的进程映射到同一个处理器节点上,不同组之间的进程分别映射到不同的处理器节点上。本发明针对异构多核平台的通信优化,通过对多核任务的合理分配,有效地降低了核间通信开销。
-
公开(公告)号:CN116610424B
公开(公告)日:2024-04-26
申请号:CN202310209027.0
申请日:2023-03-06
Applicant: 北京科技大学
Abstract: 本发明公开了一种基于GPU合并访存的模板计算二维线程块选择方法,属于高性能计算与算法技术领域;本发明包括如下步骤:S1、给定一个模板计算在二维平面内的半径,确定模板计算过程中一个二维线程块所需的数据形状;S2、基于合并访存技术,计算二维线程块的数据读取次数;给定浮点数精度,获取计算环境的相关信息,确定线程块的筛选条件;S3、依据S2中所述的筛选条件筛选出一个或多个合并访存技术需要的线程块,称为候选线程块;S4、给定开销指标并对其进行排序,依据开销指标从候选线程块中选出理论上最好的线程块,用于实际的GPU计算。本发明综合考虑了合并访存、bank冲突、负载平衡等影响因素,能够选择出计算性能较高的线程块。
-
公开(公告)号:CN112202599A
公开(公告)日:2021-01-08
申请号:CN202010956523.9
申请日:2020-09-11
Applicant: 北京科技大学
IPC: H04L12/24
Abstract: 本发明公开了一种针对异构多核平台通信优化的拓扑感知映射方法及系统,该拓扑感知映射方法包括:获取待通信优化的异构多核平台当前运行的并行应用程序的进程通信模式矩阵,以及异构多核平台的处理器节点的拓扑距离矩阵;基于进程通信模式矩阵,根据进程间通信量对并行应用程序的进程进行分组;其中,组与组之间的进程通信量相对少于组内进程通信量;基于拓扑距离矩阵和进程分组结果,将分组后位于同一组内的进程映射到同一个处理器节点上,不同组之间的进程分别映射到不同的处理器节点上。本发明针对异构多核平台的通信优化,通过对多核任务的合理分配,有效地降低了核间通信开销。
-
公开(公告)号:CN116610424A
公开(公告)日:2023-08-18
申请号:CN202310209027.0
申请日:2023-03-06
Applicant: 北京科技大学
Abstract: 本发明公开了一种基于GPU合并访存的模板计算二维线程块选择方法,属于高性能计算与算法技术领域;本发明包括如下步骤:S1、给定一个模板计算在二维平面内的半径,确定模板计算过程中一个二维线程块所需的数据形状;S2、基于合并访存技术,计算二维线程块的数据读取次数;给定浮点数精度,获取计算环境的相关信息,确定线程块的筛选条件;S3、依据S2中所述的筛选条件筛选出一个或多个合并访存技术需要的线程块,称为候选线程块;S4、给定开销指标并对其进行排序,依据开销指标从候选线程块中选出理论上最好的线程块,用于实际的GPU计算。本发明综合考虑了合并访存、bank冲突、负载平衡等影响因素,能够选择出计算性能较高的线程块。
-
公开(公告)号:CN116126540A
公开(公告)日:2023-05-16
申请号:CN202310181904.8
申请日:2023-02-21
Applicant: 北京科技大学
Abstract: 本发明公开一种支持合并访存和循环队列的GPU模板计算方法,所述方法包括:合并访存读取二维平面上的一块数据;基于循环队列的模板计算。针对以往在GPU上使用的2.5D分块模板计算方法能够很好地复用某一条轴上的数据(通常为轴),但无法实现完全的合并访存,也难以适用于计算物理中复杂的复合微分算子。现代GPU的访存效率远小于计算效率,无法利用合并访存的计算应用很难充分利用GPU的性能。本发明建立一种结合了循环队列和合并访存的分块模板计算方法,能够充分利用GPU的访存性能,并且适用于复杂的微分算子。
-
-
-
-