基于层树网络的大规模并行程序性能数据快速收集方法

    公开(公告)号:CN112445675A

    公开(公告)日:2021-03-05

    申请号:CN201910822230.9

    申请日:2019-09-02

    Abstract: 本发明公开一种基于层树网络的大规模并行程序性能数据快速收集方法,包括以下步骤:S1、依据计算节点启动的进程最多能使用的端口号数目限制M,确定子收集节点所需负责的子节点数目m;S2、根据S1中获得m值,将所需采集性能数据的总进程数N划分为一个各个树层并行度相当的拓扑网络;S3、分析各个树层的数据传输效率比1:η1,η2,...,ηh‑1,其中h为树的深度;S4、根据S3中各个树层的数据传输效率比,实现对拓扑网络的优化;S5、通过socket建立层树收集网络,实现对性能数据的收集。本发明针对异构众核结构特征,结合异构众核处理器的特点,将部分收集进程下沉至计算节点上,并且结合各树层的数据传输效率对树型收集网络进行拓扑优化,能够实现大规模并行程序性能数据的快速收集。

    面向SPM存储层次的数据缓存实现方法

    公开(公告)号:CN112433965A

    公开(公告)日:2021-03-02

    申请号:CN201910788897.1

    申请日:2019-08-26

    Abstract: 本发明公开一种面向SPM存储层次的数据缓存实现方法,包括以下步骤:S1、建立数据缓存的编程描述;S2、编译器分析编译指示,确定循环分块参数LoopBlockKey;S3、编译器根据S2中获得的循环分块参数,计算每一个循环块的计算、访存开销与数据传送开销的比值,得到并行隐藏参数Hkey;S4、根据S3得到的并行隐藏参数,反馈修正,得到最终的循环分块参数;S5、根据循环分块参数和并行隐藏参数,选择循环重构策略进行循环重构。本发明有效提升了编译器的上下文分析精确度和应用的访存效率,且可以做到计算与不同存储层次间的数据传送并行进行,有效利用处理器的各个存储层次,更进一步提升程序性能。

    异构系统的编译方法和编译器

    公开(公告)号:CN102981836A

    公开(公告)日:2013-03-20

    申请号:CN201210438958.X

    申请日:2012-11-06

    Abstract: 一种异构系统的编译方法和编译器,其中,所述的异构系统的编译方法包括:识别系统服务语句,分离计算语句和所述系统服务语句,对所述系统服务语句进行标识;对系统服务语句进行格式解析,收集系统服务信息数据;在从核程序中生成第一语句,将所述系统服务信息数据打包传送到主核端I/O缓冲,并向主核端发送服务请求;在主核程序中生成第二语句,包括从核计算加载服务程序和与所述服务请求相应的系统服务程序;在所述主核程序中生成第三语句,根据所述标识对所述系统服务程序进行轮询处理,并依据所述主核端I/O缓冲中的数据处理所述系统服务程序。本发明的异构系统的编译方法和编译器,在异构系统上实现了用户层同构视角的编程。

    数组多引用访问的分块方法和装置

    公开(公告)号:CN102929580A

    公开(公告)日:2013-02-13

    申请号:CN201210442053.X

    申请日:2012-11-06

    Abstract: 一种数组多引用访问的分块方法和装置,其中,所述数组多引用访问的分块方法包括:分析程序内各循环内的数组访问模式,根据所述数组访问模式进行各循环内数组访问的关联关系分析,所述关联关系包括关联类型和关联距离;根据数组访问的关联类型和关联距离,结合存储系统结构特征计算数组分块参数和缓冲大小参数;输出数组访问的数组分块参数和缓冲大小参数。本发明的数组多引用访问的分块方法分析了应用程序中多个引用访问之间的相关性,又考虑了系统存储架构的结构限制,确保可以获得有效的数组分块参数和缓冲大小参数。

    一种面向量子加速设备的混合式编译方法

    公开(公告)号:CN115271084B

    公开(公告)日:2024-08-30

    申请号:CN202210933691.5

    申请日:2022-08-04

    Abstract: 一种面向量子加速设备的混合式编译方法,属于量子计算技术领域。本发明包括如下步骤:步骤S1,通过标准化的量子代码编程接口,对混合代码中的经典代码与量子代码进行识别;步骤S2,对经典代码进行编译,生成可执行码;步骤S3,运行经典代码的可执行码,若遇到量子代码编程接口,则进行步骤S4,并在接收到步骤S5的运行结果后,继续运行并重复本步骤的操作,直至整个计算进程结束;步骤S4,对量子代码进行编译,生成可执行码;步骤S5,运行量子代码的可执行码。本发明操作简单高效,易于实现,同时可靠性高。

    运行时计算资源动态扩展方法

    公开(公告)号:CN112631693B

    公开(公告)日:2022-10-04

    申请号:CN201910903881.0

    申请日:2019-09-24

    Abstract: 本发明公开了一种运行时计算资源动态扩展方法,发送资源扩展升级命令给正在运行的原课题;原节点接到升级信号后,进行通信环境清理;等待新进计算资源进行二次通信环境重构通信;新节点由作业管理启动程序,进入动态任务划分区域中;判断为资源升级新节点后,新节点进行通信环境清理;原节点与新节点进行二次通信环境重构;新节点按照动态任务划分规则自动进行分区,选取分区主节点,由分区主节点向全局主节点申请任务;全局主节点在接到原分区和新分区主节点的任务申请后,向原计算资源节点和新计算资源节点均匀分配任务,课题继续正常运行。本发明解决资源调整后的通信环境重构问题,在不中断已运行课题的基础上将空闲的计算资源分配给该课题,并动态分配未完成的任务,达到计算资源的最大化利用。

    基于性能数据时空特性的分析装置

    公开(公告)号:CN112540899B

    公开(公告)日:2022-10-04

    申请号:CN201910892364.8

    申请日:2019-09-20

    Abstract: 本发明公开了一种基于性能数据时空特性的分析装置,包括代码采集装置、性能采集装置、处理装置和显示装置,所述代码采集装置用于统计比重大于1%的代码空间、相同或具有90%以上重叠的代码空间、相同代码空间出现的时间节点和时间间隔以及同一代码空间与不同代码空间相邻出现的代码模式;所述性能采集装置根据代码采集装置的采集信息采集对应的性能事件;所述处理装置对采集信息进行处理,并筛选出性能事情的优缺点;所述显示装置根据处理装置输入的筛选信息,在显示屏上输出并行程序的缺陷的和优化方向。本发明能够快速定位程序的性能瓶颈,并为用户提供优化方向,分析效率高、优化速度快。

    基于层树网络的大规模并行程序性能数据快速收集方法

    公开(公告)号:CN112445675B

    公开(公告)日:2022-09-13

    申请号:CN201910822230.9

    申请日:2019-09-02

    Abstract: 本发明公开一种基于层树网络的大规模并行程序性能数据快速收集方法,包括以下步骤:S1、依据计算节点启动的进程最多能使用的端口号数目限制M,确定子收集节点所需负责的子节点数目m;S2、根据S1中获得m值,将所需采集性能数据的总进程数N划分为一个各个树层并行度相当的拓扑网络;S3、分析各个树层的数据传输效率比1:η1,η2,...,ηh‑1,其中h为树的深度;S4、根据S3中各个树层的数据传输效率比,实现对拓扑网络的优化;S5、通过socket建立层树收集网络,实现对性能数据的收集。本发明针对异构众核结构特征,结合异构众核处理器的特点,将部分收集进程下沉至计算节点上,并且结合各树层的数据传输效率对树型收集网络进行拓扑优化,能够实现大规模并行程序性能数据的快速收集。

    面向SPM存储层次的数据缓存实现方法

    公开(公告)号:CN112433965B

    公开(公告)日:2022-07-12

    申请号:CN201910788897.1

    申请日:2019-08-26

    Abstract: 本发明公开一种面向SPM存储层次的数据缓存实现方法,包括以下步骤:S1、建立数据缓存的编程描述;S2、编译器分析编译指示,确定循环分块参数LoopBlockKey;S3、编译器根据S2中获得的循环分块参数,计算每一个循环块的计算、访存开销与数据传送开销的比值,得到并行隐藏参数Hkey;S4、根据S3得到的并行隐藏参数,反馈修正,得到最终的循环分块参数;S5、根据循环分块参数和并行隐藏参数,选择循环重构策略进行循环重构。本发明有效提升了编译器的上下文分析精确度和应用的访存效率,且可以做到计算与不同存储层次间的数据传送并行进行,有效利用处理器的各个存储层次,更进一步提升程序性能。

Patent Agency Ranking