-
公开(公告)号:CN114491402A
公开(公告)日:2022-05-13
申请号:CN202210066814.X
申请日:2022-01-20
Applicant: 北京科技大学
Abstract: 本发明公开了一种稀疏矩阵向量乘访存优化的计算方法,适用于DCU和GPU架构,该方法包括:将原始稀疏矩阵按照固定行数划分为若干块,每块由一个线程块单独完成计算,并为每个线程块在LDS开辟固定大小的空间;计算每一线程块需要计算的轮次数;在一个轮次的计算中,每个线程块中所有线程完成若干次非零元素计算并将结果写入LDS;每个线程块中一个或多个线程对LDS的乘法结果进行求和并将结果保存至寄存器;当完成所有轮次计算后,将寄存器中的结果进行进一步计算,并将结果写回显存。本发明基于原始CSR格式,无需预处理,且能充分利用访存合并特性,实现了较高的访存带宽利用。
-
公开(公告)号:CN116167272A
公开(公告)日:2023-05-26
申请号:CN202310147863.0
申请日:2023-02-21
Applicant: 北京科技大学
IPC: G06F30/25 , G06F119/14
Abstract: 本发明公开一种原子尺度MD‑KMC并行模拟统一建模方法及系统,所述方法包括:建立原子尺度统一架构;基于所述原子尺度统一架构的分子动力学模拟;基于所述原子尺度统一架构的动力学蒙特卡洛模拟。统一建模方法便于软件开发与性能优化。将粒子存储、并行与通信算法及势函数独立出来形成单独模块,可便于MD、KMC软件开发模块间的解耦;在超算架构上进行性能优化时,其效果可直接同时作用于上层MD、KMC软件,起到“一处优化、两处提升”的效果,支撑MD、KMC模拟同时达到大规模模拟计算水平。
-
公开(公告)号:CN115269178A
公开(公告)日:2022-11-01
申请号:CN202210820995.0
申请日:2022-07-13
Applicant: 北京科技大学
Abstract: 本发明公开了一种基于混合架构的非格点动力学蒙特卡洛并行模拟方法,包括以下步骤:S1:划分计算任务;S2:初始化主进程;S3:初始化工作进程;S4:搜索反应事件:工作进程从初始状态执行事件搜索算法,搜寻反应事件,并将搜索的反应事件发送给主进程;S5:接收反应事件;S6:选取反应事件:随机选取反应事件,并广播发送被选中事件工作进程的编号,并由该工作进程负责下一个时间步模拟数据的同步,从而完成一个时间步的模拟,重复上述过程,直至达到预定的时间步,并发送模拟结束信号;S7:更新模拟体系。本发明占用内存少,主进程不保存原子信息,只维护事件表;通信效率高,反应事件采用异步通信,反应通信与事件搜索重叠。
-
公开(公告)号:CN115269178B
公开(公告)日:2025-05-06
申请号:CN202210820995.0
申请日:2022-07-13
Applicant: 北京科技大学
Abstract: 本发明公开了一种基于混合架构的非格点动力学蒙特卡洛并行模拟方法,包括以下步骤:S1:划分计算任务;S2:初始化主进程;S3:初始化工作进程;S4:搜索反应事件:工作进程从初始状态执行事件搜索算法,搜寻反应事件,并将搜索的反应事件发送给主进程;S5:接收反应事件;S6:选取反应事件:随机选取反应事件,并广播发送被选中事件对应的工作进程的编号,并由该工作进程负责下一个时间步模拟数据的同步,完成一个时间步的模拟,重复上述过程,直至达到预定的时间步,并发送模拟结束信号;S7:更新模拟体系。本发明占用内存少,主进程不保存原子信息,只维护事件表;通信效率高,反应事件采用异步通信,反应通信与事件搜索重叠。
-
公开(公告)号:CN116662726A
公开(公告)日:2023-08-29
申请号:CN202310645045.3
申请日:2023-06-02
Applicant: 北京科技大学
Abstract: 本发明公开了面向GPU和DCU架构的SpGEMM算法策略选择及优化方法,属于高性能计算技术领域;本发明在大量试验的基础上,对SpGEMM算法进行计算和访存优化;结合稀疏矩阵特征和GPU、DCU架构的特点,实现了SpGEMM自适应策略选择算法,并自适应的为不同算法设置相应求解参数,以达到更高的SpGEMM求解效率。
-
公开(公告)号:CN114491401A
公开(公告)日:2022-05-13
申请号:CN202210066813.5
申请日:2022-01-20
Applicant: 北京科技大学
IPC: G06F17/16
Abstract: 本发明公开了一种自适应稀疏矩阵向量乘策略选择及优化方法,适用于GPU架构,该方法包括:对待处理矩阵按行进行分块,统计各矩阵子块的非零元素数,若各矩阵子块的非零元素数差别倍数高于第一预设阈值,则采用自适应的CSR‑Vector算法进行处理;统计待处理矩阵的行平均非零元素个数,若矩阵行平均非零元素个数低于第二预设阈值,则采用改进的CSR‑Stream算法进行求解;统计待处理矩阵的非零元素个数,若其非零元素个数大于第三预设阈值,则采用hola算法进行求解;若以上条件均不满足,则采用CSR‑Vector算法进行求解。本发明实现了针对不同应用问题的自适应高效SpMV求解。
-
公开(公告)号:CN119694419A
公开(公告)日:2025-03-25
申请号:CN202411899839.3
申请日:2024-12-23
Applicant: 北京科技大学
IPC: G16C10/00 , G06F30/25 , G06F119/14 , G06F111/10
Abstract: 一种原子尺度MD‑KMC并行模拟统一建模方法及系统,包括:建立原子尺度统一架构;基于所述原子尺度统一架构的分子动力学模拟;基于所述原子尺度统一架构的动力学蒙特卡洛模拟。本发明可便于MD、KMC软件开发模块间的解耦;起到“一处优化、多处提升”的效果,支撑MD、KMC模拟同时达到大规模模拟计算水平。
-
公开(公告)号:CN116167272B
公开(公告)日:2024-01-26
申请号:CN202310147863.0
申请日:2023-02-21
Applicant: 北京科技大学
IPC: G06F30/25 , G06F119/14
Abstract: 本发明公开一种原子尺度MD‑KMC并行模拟统一建模方法及系统,所述方法包括:建立原子尺度统一架构;基于所述原子尺度统一架构的分子动力学模拟;基于所述原子尺度统一架构的动力学蒙特卡洛模拟。统一建模方法便于软件开发与性能优化。将粒子存储、并行与通信算法及势函数独立出来形成单独模块,可便于MD、KMC软件开发模块间的解耦;在超算架构上进行性能优化时,其效果可直接同时作用于上层MD、KMC软件,起到“一处优化、两处提升”的效果,支撑MD、KMC模拟同时达到大规模模拟计算水平。
-
公开(公告)号:CN116680073A
公开(公告)日:2023-09-01
申请号:CN202310653455.2
申请日:2023-06-02
Applicant: 北京科技大学
Abstract: 本发明公开了一种面向GPU和DCU架构的Flash Sort算法优化方法,属于高性能计算与算法技术领域;本发明在不同级别上(device/block/wavefront)处理数组A(数组A为待排序数组),根据待排序数组内的元素数值范围设定桶的数量,并按照桶内的元素数量对数组的存储地址重新进行划分,将数组内的元素存储到对应的桶中。将线程划分为若干线程组,每个线程组共同完成一个桶内的元素的排序,每个线程负责桶内多个元素的排序,并预先在LDS上分配存储空间,有效解决了现有技术所存在的资源占用率低,总体性能不高的问题。
-
-
-
-
-
-
-
-