N体模拟在异构架构的并行加速实现方法

    公开(公告)号:CN114490011B

    公开(公告)日:2024-06-18

    申请号:CN202011260657.3

    申请日:2020-11-12

    Abstract: 一种N体模拟在异构架构的并行加速实现方法,通过初始化后更新缓冲区,通过CPU内存与GPU显存之间的信息传输后,依次通过GPU以分桶算法计算粒子之间的短程力并返回结果至CPU端;通过CPU计算粒子之间的长程力及加速度后更新粒子速度,最后更新缓冲区粒子的速度信息并当满足条件时结束模拟;本发明在CPU端进行主体程序的计算和数据读取、输出等功能,在GPU端进行程序中热点函数的计算,通过基于粒子‑网格算法,将粒子之间的力分为短程力和长程力,利用CPU和GPU的算力及其架构特点,实现快速计算。

    基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法

    公开(公告)号:CN110275733B

    公开(公告)日:2022-11-22

    申请号:CN201910564493.4

    申请日:2019-06-27

    Abstract: 一种基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法,通过划分非结构网格,确定边界条件和计算参数并初始化能量密度分布后,从CPU内存向GPU显存传输每个网格单元之间的影响系数;然后计算声子散射项,并使用稳定双共轭梯度法(BiCGSTAB)求解线性方程组,对每个网格单元的能量密度分布进行更新并通过GPU对声子模式温度分布和平衡态分布函数进行更新,最后通过比较每个网格单元的能量密度分布更新前后的变化,并当满足收敛条件时停止计算并输出结果。本发明在GPU上并行计算求解过程中的主要迭代部分,CPU负责整个计算过程的数据读取、数据输出以及计算流程控制,从而显著提高了计算效率。

    在ARMv8处理器上质点网格法的并行实现方法

    公开(公告)号:CN110275732A

    公开(公告)日:2019-09-24

    申请号:CN201910482225.8

    申请日:2019-06-04

    Abstract: 一种在支持ARMv8指令集的处理器上质点网格法的并行实现方法,在完成进程空间与线程空间划分后,加载网格单元内粒子并初始化,完成计算更新粒子及场强数据信息后再将结果数据以文件形式输出,当计算时出现负载不均衡则进行动态负载均衡操作。本发明基于消息传递接口(MPI)与OpenMP并行实现框架,通过线程绑定规避进程内socket间传输数据,使用单指令多数据向量化,降低浮点数精度,采用动态负载均衡等优化方法,基于硬件平台的体系架构,充分利用计算资源,提高质点网格法的计算性能。

    被动网络性能测量系统及其页面识别方法

    公开(公告)号:CN102361484B

    公开(公告)日:2012-11-28

    申请号:CN201110186461.9

    申请日:2011-07-05

    Abstract: 一种计算机网络技术领域的被动网络性能测量系统及其页面识别方法,该系统包括:网络踪迹采集模块、网页元素解析模块、网页识别模块和信息统计模块,本发明采用被动网络测量的方式、在网络接入链路上设置踪迹采集点来获取原始的测量数据,不需要在用户电脑上运行测量代码,也不会因测量给网络带来额外的流量,影响网络中的正常服务;用户端Web性能的测量方法以单个页面的加载时间作为测量指标,可以直接反映用户的真实体验;所采用的改进的页面识别方法,利用HTTP请求的网页元素,绘制出网页元素之间的超链接关联图,并结合不同网站网页的结构特征,从超链接关联图中分离出完整的页面,能够识别出加载时间重合的页面,提高页面识别的准确率。

    用于处理射电望远镜数据的脉冲星搜索并行优化方法

    公开(公告)号:CN113742088B

    公开(公告)日:2023-11-14

    申请号:CN202111112161.6

    申请日:2021-09-23

    Abstract: 一种用于处理射电望远镜数据的脉冲星搜索并行优化方法,以多线程方式对搜索射频干扰中每个区间的频率通道进行去除射频干扰,并将射频干扰数据记录到观测数据中;根据消色散方案并采用进程线程配置算法,对每个进程需执行的命令以及命令的线程数进行分配,从而平衡每个进程的负载,从而以多进程并行方式进行消色散,得到消除色散后的时序文件;对消色散的时序文件数据进行离散快速傅里叶变换和去除红噪声,得到频域文件;以频域文件为输入,依次以多进程方式进行频域加速搜索以及以多进程方式进行候选体折叠,得到常规脉冲星候选体数据;以消色散输出的时序文件数据为输入,以多进程方式进行单脉冲搜索,得到单脉冲星和巨脉冲星的候选体数据。

    单边带副载波调制的动态组播下行数据发射机

    公开(公告)号:CN101765032B

    公开(公告)日:2012-08-29

    申请号:CN201010300014.7

    申请日:2010-01-04

    Abstract: 本发明公开了一种光通信技术领域的单边带副载波调制的动态组播下行数据发射机,包括:若干单波长信道器件、阵列波导光栅、梳状滤波器、强度调制器和组播数据发生器,其中:单波长信道器件和阵列波导光栅的分路端口相连传输下行波分信息,阵列波导光栅的合路端口与梳状滤波器的输入端口相连传输下行波分复用信息,梳状滤波器的一个输出端口输出下行单播波分复用信号,梳状滤波器的另一个输出端口与强度调制器相连传输下行单边带副载波波分复用信号,组播数据发生器与强度调制器相连传输组播数据信息,强度调制器输出调制后的下行单边带副载波组播波分复用信号。本发明应用于长距离且需要支持动态组播业务的密集波分复用无源光网络中。

    面向张量计算单元卷积算子优化实现方法

    公开(公告)号:CN115983356A

    公开(公告)日:2023-04-18

    申请号:CN202111195567.5

    申请日:2021-10-14

    Abstract: 一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。

    用于处理射电望远镜数据的脉冲星搜索并行优化方法

    公开(公告)号:CN113742088A

    公开(公告)日:2021-12-03

    申请号:CN202111112161.6

    申请日:2021-09-23

    Abstract: 一种用于处理射电望远镜数据的脉冲星搜索并行优化方法,以多线程方式对搜索射频干扰中每个区间的频率通道进行去除射频干扰,并将射频干扰数据记录到观测数据中;根据消色散方案并采用进程线程配置算法,对每个进程需执行的命令以及命令的线程数进行分配,从而平衡每个进程的负载,从而以多进程并行方式进行消色散,得到消除色散后的时序文件;对消色散的时序文件数据进行离散快速傅里叶变换和去除红噪声,得到频域文件;以频域文件为输入,依次以多进程方式进行频域加速搜索以及以多进程方式进行候选体折叠,得到常规脉冲星候选体数据;以消色散输出的时序文件数据为输入,以多进程方式进行单脉冲搜索,得到单脉冲星和巨脉冲星的候选体数据。

Patent Agency Ranking