在ARMv8处理器上质点网格法的并行实现方法

    公开(公告)号:CN110275732B

    公开(公告)日:2023-02-21

    申请号:CN201910482225.8

    申请日:2019-06-04

    Abstract: 一种在支持ARMv8指令集的处理器上质点网格法的并行实现方法,在完成进程空间与线程空间划分后,加载网格单元内粒子并初始化,完成计算更新粒子及场强数据信息后再将结果数据以文件形式输出,当计算时出现负载不均衡则进行动态负载均衡操作。本发明基于消息传递接口(MPI)与OpenMP并行实现框架,通过线程绑定规避进程内socket间传输数据,使用单指令多数据向量化,降低浮点数精度,采用动态负载均衡等优化方法,基于硬件平台的体系架构,充分利用计算资源,提高质点网格法的计算性能。

    N体模拟在异构架构的并行加速实现方法

    公开(公告)号:CN114490011A

    公开(公告)日:2022-05-13

    申请号:CN202011260657.3

    申请日:2020-11-12

    Abstract: 一种N体模拟在异构架构的并行加速实现方法,通过初始化后更新缓冲区,通过CPU内存与GPU显存之间的信息传输后,依次通过GPU以分桶算法计算粒子之间的短程力并返回结果至CPU端;通过CPU计算粒子之间的长程力及加速度后更新粒子速度,最后更新缓冲区粒子的速度信息并当满足条件时结束模拟;本发明在CPU端进行主体程序的计算和数据读取、输出等功能,在GPU端进行程序中热点函数的计算,通过基于粒子‑网格算法,将粒子之间的力分为短程力和长程力,利用CPU和GPU的算力及其架构特点,实现快速计算。

    基于指数增长的多硬件事件监控计数值估计方法

    公开(公告)号:CN111858243A

    公开(公告)日:2020-10-30

    申请号:CN202010678027.1

    申请日:2020-07-15

    Abstract: 一种基于指数增长的多硬件事件监控计数值估计方法,分别通过主线程维护工作流程的生命周期、创建和初始化相关数据结构和从线程,发送从线程控制信号以及运行被监控应用,通过从线程响应主线程的生命周期信号、进行硬件事件调度、定时轮流监控和后处理估计,通过读取CPU内置的硬件事件计数寄存器得到多硬件事件监控计数值。本发明通过指数增长估计算法填充非监控时间片上的硬件事件计数值,能够提升基于MPX技术的多硬件事件监控计数库的准确性,增强MPX下监控结果的可用性。

    一种基于RDMA技术的低开销性能数据收集方法

    公开(公告)号:CN118210698A

    公开(公告)日:2024-06-18

    申请号:CN202211616277.8

    申请日:2022-12-15

    Abstract: 本发明一种基于RDMA技术的低开销性能数据收集方法,至少包括如下步骤S10‑步骤S20:步骤S10:获取被测目标,其中,以所述被测目标的首尾为桩点插入读取性能数据代码;所述被测目标为被测应用源代码中的一段代码,其中,所述被测应用为并行应用。如选取被测应用源代码中的m段代码,以该m段代码的首尾作为读取性能数据代码的插入位置;步骤S20:获取性能数据,其中,通过RDMA技术收集所述性能数据;当读取性能数据代码运行时,即可读取硬件计数器上的数据,并存储在相应的存储模块内,且通过RDMA技术进行收集,可以避免性能数据大量占用计算节点内存,影响运行性能。

    用于处理射电望远镜数据的脉冲星搜索并行优化方法

    公开(公告)号:CN113742088B

    公开(公告)日:2023-11-14

    申请号:CN202111112161.6

    申请日:2021-09-23

    Abstract: 一种用于处理射电望远镜数据的脉冲星搜索并行优化方法,以多线程方式对搜索射频干扰中每个区间的频率通道进行去除射频干扰,并将射频干扰数据记录到观测数据中;根据消色散方案并采用进程线程配置算法,对每个进程需执行的命令以及命令的线程数进行分配,从而平衡每个进程的负载,从而以多进程并行方式进行消色散,得到消除色散后的时序文件;对消色散的时序文件数据进行离散快速傅里叶变换和去除红噪声,得到频域文件;以频域文件为输入,依次以多进程方式进行频域加速搜索以及以多进程方式进行候选体折叠,得到常规脉冲星候选体数据;以消色散输出的时序文件数据为输入,以多进程方式进行单脉冲搜索,得到单脉冲星和巨脉冲星的候选体数据。

    一种超级计算机性能波动判定方法

    公开(公告)号:CN115809171A

    公开(公告)日:2023-03-17

    申请号:CN202211617529.9

    申请日:2022-12-15

    Abstract: 本发明涉及一种超级计算机性能波动判定方法,包括:获取计时指令开销,所述计时指令开销为计时指令自身耗时开销;获取被测时间,所述被测时间为执行被测程序所测得的时间,包括物理周期间隔、墙钟时间间隔;通过所述被测时间与所述计时指令开销,获取实际时钟消耗,所述实际时钟开销包括实际物理周期间隔、实际墙钟时间间隔;获取最短测试间隔;输出性能波动判定条件,其中,通过威尔克森秩和检验方法进行显著性差异检验,并以被接受的差异为参数,输出所述性能波动判定条件;可以在超级计算机中,判断计数器的读数波动是否为性能波动。

    动态选择MPI全规约通信算法的方法及系统

    公开(公告)号:CN117493040A

    公开(公告)日:2024-02-02

    申请号:CN202311440632.5

    申请日:2023-11-01

    Abstract: 一种动态选择MPI全规约通信算法的方法及系统,根据用户输入的待优化的MPI库提取得到对应实现及版本信息后,查找该实现所包含的全归约实现算法对应的算法模型;进行采样实验,求解模型参数值;使用模型选择最优算法并根据结果生成最优全归约算法选择代码替换原MPI库中的全归约算法选择代码,经编译生成优化后的MPI库,用于生成适合于当前集群网络拓扑、带宽的实现算法。本发明基于全规约不同实现算法的性能模型,能够选择更加适配于应用进程规模和消息大小的全规约算法。

    面向张量计算单元卷积算子优化实现方法

    公开(公告)号:CN115983356A

    公开(公告)日:2023-04-18

    申请号:CN202111195567.5

    申请日:2021-10-14

    Abstract: 一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

Patent Agency Ranking