N体模拟在异构架构的并行加速实现方法

    公开(公告)号:CN114490011B

    公开(公告)日:2024-06-18

    申请号:CN202011260657.3

    申请日:2020-11-12

    Abstract: 一种N体模拟在异构架构的并行加速实现方法,通过初始化后更新缓冲区,通过CPU内存与GPU显存之间的信息传输后,依次通过GPU以分桶算法计算粒子之间的短程力并返回结果至CPU端;通过CPU计算粒子之间的长程力及加速度后更新粒子速度,最后更新缓冲区粒子的速度信息并当满足条件时结束模拟;本发明在CPU端进行主体程序的计算和数据读取、输出等功能,在GPU端进行程序中热点函数的计算,通过基于粒子‑网格算法,将粒子之间的力分为短程力和长程力,利用CPU和GPU的算力及其架构特点,实现快速计算。

    基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法

    公开(公告)号:CN110275733B

    公开(公告)日:2022-11-22

    申请号:CN201910564493.4

    申请日:2019-06-27

    Abstract: 一种基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法,通过划分非结构网格,确定边界条件和计算参数并初始化能量密度分布后,从CPU内存向GPU显存传输每个网格单元之间的影响系数;然后计算声子散射项,并使用稳定双共轭梯度法(BiCGSTAB)求解线性方程组,对每个网格单元的能量密度分布进行更新并通过GPU对声子模式温度分布和平衡态分布函数进行更新,最后通过比较每个网格单元的能量密度分布更新前后的变化,并当满足收敛条件时停止计算并输出结果。本发明在GPU上并行计算求解过程中的主要迭代部分,CPU负责整个计算过程的数据读取、数据输出以及计算流程控制,从而显著提高了计算效率。

    在ARMv8处理器上质点网格法的并行实现方法

    公开(公告)号:CN110275732A

    公开(公告)日:2019-09-24

    申请号:CN201910482225.8

    申请日:2019-06-04

    Abstract: 一种在支持ARMv8指令集的处理器上质点网格法的并行实现方法,在完成进程空间与线程空间划分后,加载网格单元内粒子并初始化,完成计算更新粒子及场强数据信息后再将结果数据以文件形式输出,当计算时出现负载不均衡则进行动态负载均衡操作。本发明基于消息传递接口(MPI)与OpenMP并行实现框架,通过线程绑定规避进程内socket间传输数据,使用单指令多数据向量化,降低浮点数精度,采用动态负载均衡等优化方法,基于硬件平台的体系架构,充分利用计算资源,提高质点网格法的计算性能。

    面向张量计算单元卷积算子优化实现方法

    公开(公告)号:CN115983356A

    公开(公告)日:2023-04-18

    申请号:CN202111195567.5

    申请日:2021-10-14

    Abstract: 一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

    基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法

    公开(公告)号:CN110275733A

    公开(公告)日:2019-09-24

    申请号:CN201910564493.4

    申请日:2019-06-27

    Abstract: 一种基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法,通过划分非结构网格,确定边界条件和计算参数并初始化能量密度分布后,从CPU内存向GPU显存传输每个网格单元之间的影响系数;然后计算声子散射项,并使用稳定双共轭梯度法(BiCGSTAB)求解线性方程组,对每个网格单元的能量密度分布进行更新并通过GPU对声子模式温度分布和平衡态分布函数进行更新,最后通过比较每个网格单元的能量密度分布更新前后的变化,并当满足收敛条件时停止计算并输出结果。本发明在GPU上并行计算求解过程中的主要迭代部分,CPU负责整个计算过程的数据读取、数据输出以及计算流程控制,从而显著提高了计算效率。

    基于指数增长的多硬件事件监控计数值估计方法

    公开(公告)号:CN111858243B

    公开(公告)日:2024-03-19

    申请号:CN202010678027.1

    申请日:2020-07-15

    Abstract: 一种基于指数增长的多硬件事件监控计数值估计方法,分别通过主线程维护工作流程的生命周期、创建和初始化相关数据结构和从线程,发送从线程控制信号以及运行被监控应用,通过从线程响应主线程的生命周期信号、进行硬件事件调度、定时轮流监控和后处理估计,通过读取CPU内置的硬件事件计数寄存器得到多硬件事件监控计数值。本发明通过指数增长估计算法填充非监控时间片上的硬件事件计数值,能够提升基于MPX技术的多硬件事件监控计数库的准确性,增强MPX下监控结果的可用性。

    在ARMv8处理器上质点网格法的并行实现方法

    公开(公告)号:CN110275732B

    公开(公告)日:2023-02-21

    申请号:CN201910482225.8

    申请日:2019-06-04

    Abstract: 一种在支持ARMv8指令集的处理器上质点网格法的并行实现方法,在完成进程空间与线程空间划分后,加载网格单元内粒子并初始化,完成计算更新粒子及场强数据信息后再将结果数据以文件形式输出,当计算时出现负载不均衡则进行动态负载均衡操作。本发明基于消息传递接口(MPI)与OpenMP并行实现框架,通过线程绑定规避进程内socket间传输数据,使用单指令多数据向量化,降低浮点数精度,采用动态负载均衡等优化方法,基于硬件平台的体系架构,充分利用计算资源,提高质点网格法的计算性能。

    N体模拟在异构架构的并行加速实现方法

    公开(公告)号:CN114490011A

    公开(公告)日:2022-05-13

    申请号:CN202011260657.3

    申请日:2020-11-12

    Abstract: 一种N体模拟在异构架构的并行加速实现方法,通过初始化后更新缓冲区,通过CPU内存与GPU显存之间的信息传输后,依次通过GPU以分桶算法计算粒子之间的短程力并返回结果至CPU端;通过CPU计算粒子之间的长程力及加速度后更新粒子速度,最后更新缓冲区粒子的速度信息并当满足条件时结束模拟;本发明在CPU端进行主体程序的计算和数据读取、输出等功能,在GPU端进行程序中热点函数的计算,通过基于粒子‑网格算法,将粒子之间的力分为短程力和长程力,利用CPU和GPU的算力及其架构特点,实现快速计算。

Patent Agency Ranking