一种基于GPU合并访存的模板计算二维线程块选择方法

    公开(公告)号:CN116610424B

    公开(公告)日:2024-04-26

    申请号:CN202310209027.0

    申请日:2023-03-06

    Abstract: 本发明公开了一种基于GPU合并访存的模板计算二维线程块选择方法,属于高性能计算与算法技术领域;本发明包括如下步骤:S1、给定一个模板计算在二维平面内的半径,确定模板计算过程中一个二维线程块所需的数据形状;S2、基于合并访存技术,计算二维线程块的数据读取次数;给定浮点数精度,获取计算环境的相关信息,确定线程块的筛选条件;S3、依据S2中所述的筛选条件筛选出一个或多个合并访存技术需要的线程块,称为候选线程块;S4、给定开销指标并对其进行排序,依据开销指标从候选线程块中选出理论上最好的线程块,用于实际的GPU计算。本发明综合考虑了合并访存、bank冲突、负载平衡等影响因素,能够选择出计算性能较高的线程块。

    一种应用于分子动力学模拟软件的访存优化方法及装置

    公开(公告)号:CN112069091B

    公开(公告)日:2023-09-01

    申请号:CN202010828235.5

    申请日:2020-08-17

    Abstract: 本发明公开了一种应用于分子动力学模拟软件的访存优化方法及装置,该方法包括:基于运行平台的从核阵列的架构,将每个从核的本地存储空间分别划分为第一缓存区、第二缓存区和第三缓存区;基于访存数据的总量大小和访存是否规则对数据访存模式进行分类,根据访存模式将访存数据分别存入对应的缓存区;在第一缓存区中,采用哈希映射的方式进行数据映射查找,采用链地址法解决数据冲突,并利用从核之间的寄存器通信进行数据共享;在第二缓存区中,采用双缓冲技术批量访问规则数据,隐藏从核和主存的通信开销。本发明减小了查找开销,提高了空间利用率和命中率,可有效提升程序运行效率。

    针对异构多核平台通信优化的拓扑感知映射方法及系统

    公开(公告)号:CN112202599A

    公开(公告)日:2021-01-08

    申请号:CN202010956523.9

    申请日:2020-09-11

    Abstract: 本发明公开了一种针对异构多核平台通信优化的拓扑感知映射方法及系统,该拓扑感知映射方法包括:获取待通信优化的异构多核平台当前运行的并行应用程序的进程通信模式矩阵,以及异构多核平台的处理器节点的拓扑距离矩阵;基于进程通信模式矩阵,根据进程间通信量对并行应用程序的进程进行分组;其中,组与组之间的进程通信量相对少于组内进程通信量;基于拓扑距离矩阵和进程分组结果,将分组后位于同一组内的进程映射到同一个处理器节点上,不同组之间的进程分别映射到不同的处理器节点上。本发明针对异构多核平台的通信优化,通过对多核任务的合理分配,有效地降低了核间通信开销。

    一种动力学蒙特卡洛并行模拟的通信优化方法及其系统

    公开(公告)号:CN107239352A

    公开(公告)日:2017-10-10

    申请号:CN201710397637.2

    申请日:2017-05-31

    Abstract: 本发明提供一种动力学蒙特卡洛并行模拟的通信优化方法及系统,其中,所述方法包括:构造通信数据结构;构建邻居进程的图状拓扑结构;开启进程外迭代;按照预设顺序从多个子区域中选择一个子区域;进程当前选择的子区域数据通过构造的所述通信数据结构与邻居进程通信;迭代结束。本发明还提供一种动力学蒙特卡洛并行模拟的通信优化系统。本发明提供的技术方案通过构建进程图状拓扑结构,使用邻居集合通信函数代替原有的点到点通信函数,进而降低了通信时间复杂度,通过优化程序流程,选取最优的子区域迭代顺序,合并相邻两次内迭代的部分通信操作,从而减少了部分通信冗余数据,减少了进程间的同步等待时间,使负载更加均衡。

    并行程序编译方法及系统

    公开(公告)号:CN101387965B

    公开(公告)日:2011-05-18

    申请号:CN200810224147.3

    申请日:2008-10-24

    Abstract: 本发明涉及一种并行程序编译方法,包括:数据划分步骤;数据重分布步骤;循环迭代划分步骤;循环迭代重分布步骤;通信I/O观测步骤;计算和通信的代码段生成步骤。本发明还涉及一种并行程序编译系统,包括:数据划分模块;数据重分布模块;循环迭代划分模块;循环迭代重分布模块;通信I/O观测模块;计算通信I/O操作代码段生成模块。本发明建立了核外非规则计算编译系统,简化了核外和非规则的并行计算问题,并提高该类程序的可移植性,该运行库基于消息传递MPI机制,具有用于支持并行程序的资源。

    一种基于GPU合并访存的模板计算二维线程块选择方法

    公开(公告)号:CN116610424A

    公开(公告)日:2023-08-18

    申请号:CN202310209027.0

    申请日:2023-03-06

    Abstract: 本发明公开了一种基于GPU合并访存的模板计算二维线程块选择方法,属于高性能计算与算法技术领域;本发明包括如下步骤:S1、给定一个模板计算在二维平面内的半径,确定模板计算过程中一个二维线程块所需的数据形状;S2、基于合并访存技术,计算二维线程块的数据读取次数;给定浮点数精度,获取计算环境的相关信息,确定线程块的筛选条件;S3、依据S2中所述的筛选条件筛选出一个或多个合并访存技术需要的线程块,称为候选线程块;S4、给定开销指标并对其进行排序,依据开销指标从候选线程块中选出理论上最好的线程块,用于实际的GPU计算。本发明综合考虑了合并访存、bank冲突、负载平衡等影响因素,能够选择出计算性能较高的线程块。

    一种非结构化三角稀疏线性方程组的并行计算方法及装置

    公开(公告)号:CN115455342A

    公开(公告)日:2022-12-09

    申请号:CN202211064417.5

    申请日:2022-08-31

    Abstract: 本发明提供了一种非结构化三角稀疏线性方程组的并行计算方法及装置,涉及高性能数值计算领域。包括:接收求解矩阵和右端向量,对求解矩阵的非零元按列存储;对求解矩阵进行预处理,根据分析结果自适应选择求解算法,开启多核并行处理;在本核的局部存储空间中开辟空间来存储求解所需的非零元信息、依赖关系和右端向量,以实现粗粒度访存;基于x向量的求解结果,与矩阵的非零元素进行相乘,利用所得到的结果对相应的右端向量进行更新,以解决数据依赖问题,设计合理通信方案,实现正确的粗粒度数据传输;基于计算流程和通信方案,按照水平级的顺序依次对矩阵块进行求解,直至非结构化线性方程组问题被完全正确的求解。

Patent Agency Ranking