基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置

    公开(公告)号:CN107193535B

    公开(公告)日:2019-11-08

    申请号:CN201710341195.X

    申请日:2017-05-16

    Abstract: 本发明涉及一种基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置,该方法包含:通过设定破环测试参数对待并行化程序区域进行依赖环破除测试,将SIMD扩展部件对应于待并行化程序区域中循环的局部并行,通过循环分段发掘待并行化程序区域中单层循环局部并行性;将循环分段依次应用在循环嵌套的每一层循环,对待并行化程序区域中整个循环嵌套进行SIMD并行化处理。本发明通过依赖环破除测试,减少不必要的循环分段造成的性能损耗,充分发掘单层循环的局部并行性,循环分段依次应用于循环嵌套的每一层循环实现整个循环嵌套的SIMD并行化,充分发挥SIMD短向量扩展部件的并行性,实现高性能计算线程间负载均衡、性能优化,对高性能计算具有重要意义。

    一种自动并行化多级并行代价评估方法

    公开(公告)号:CN103246541B

    公开(公告)日:2016-03-23

    申请号:CN201310153710.3

    申请日:2013-04-27

    Abstract: 本发明涉及计算机高性能计算技术领域,特别涉及一种自动并行化多级并行代价评估方法,首先进行粗粒度自动并行化代价评估,其次进行中粒度自动并行化代价评估,最后进行细粒度自动并行化代价评估,然后进行综合代价评估,针对共享存储的DOALL并行、流水并行和DSWP并行三种并行模型,构建对应的评估方法,DOALL并行代价分析将静态分析和动态分析相结合获取代价分析信息,向量化代价由各条语句对应的执行代价叠加而成。本发明提供语句迭代次数和语句单次执行代价的计算方法,并设定经验值确定循环迭代次数,能够较完备的实现对多级并行模式的后端生成代码的精确并行化收益评估,且有效保证目标并行程序的加速效果。

    渐进式智能回溯向量化代码调优方法

    公开(公告)号:CN103207786B

    公开(公告)日:2016-03-23

    申请号:CN201310154727.0

    申请日:2013-04-28

    Abstract: 本发明涉及一种渐进式智能回溯向量化代码调优方法,主要包括以下步骤:(1)静态调优:在源程序中添加编译指示语句,生成向量化程序;(2)动态调优:进行动态插桩,获取程序剖面信息和动态插桩信息,根据反馈信息文件生成优化后的向量化程序;(3)配置向量化基础选项和优化选项,在向量化过程中逐一添加优化选项,并将调优结果与添加前的调优结果相比较,如当前调优结果优于上一次,则保留,否则回溯。通过采用上述步骤,能够优化生成代码中的向量化语句,提高生成代码的执行效率,从而缓解程序员设计和编写并行程序的压力,并充分发挥当前高性能巨型计算机系统的计算能力。

    面向异构众核多级存储结构的数据分布与局部性优化方法

    公开(公告)号:CN103226487B

    公开(公告)日:2016-01-13

    申请号:CN201310148326.4

    申请日:2013-04-25

    Abstract: 本发明涉及一种面向异构众核多级存储结构的数据分布与局部性优化方法,具体为:对程序进行数据流分析,完成数据在不同类型核心的存储器之间的高效映射和布局,通过自动生成指导数据分布的相关数据管理子句,显式控制局部存储器与主存储器的数据传输,决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容,优化异构众核多级存储结构的存储性能;具体含有下列步骤:步骤1:数据规模自适应的数组分块;步骤2:数组访问模式指导的数据分布;步骤3:主从协作的数组转置;步骤4:外围数据传输简化;本发明提升了程序的执行效率。

    自动并行化多级并行代价评估方法

    公开(公告)号:CN103246541A

    公开(公告)日:2013-08-14

    申请号:CN201310153710.3

    申请日:2013-04-27

    Abstract: 本发明涉及计算机高性能计算技术领域,特别涉及一种自动并行化多级并行代价评估方法,首先进行粗粒度自动并行化代价评估,其次进行中粒度自动并行化代价评估,最后进行细粒度自动并行化代价评估,然后进行综合代价评估,针对共享存储的DOALL并行、流水并行和DSWP并行三种并行模型,构建对应的评估方法,DOALL并行代价分析将静态分析和动态分析相结合获取代价分析信息,向量化代价由各条语句对应的执行代价叠加而成。本发明提供语句迭代次数和语句单次执行代价的计算方法,并设定经验值确定循环迭代次数,能够较完备的实现对多级并行模式的后端生成代码的精确并行化收益评估,且有效保证目标并行程序的加速效果。

    面向异构众核多级存储结构的数据分布与局部性优化方法

    公开(公告)号:CN103226487A

    公开(公告)日:2013-07-31

    申请号:CN201310148326.4

    申请日:2013-04-25

    Abstract: 本发明涉及一种面向异构众核多级存储结构的数据分布与局部性优化方法,具体为:对程序进行数据流分析,完成数据在不同类型核心的存储器之间的高效映射和布局,通过自动生成指导数据分布的相关数据管理子句,显式控制局部存储器与主存储器的数据传输,决定数据进入局部存储器以及从局部存储器写回的时机、位置和内容,优化异构众核多级存储结构的存储性能;具体含有下列步骤:步骤1:数据规模自适应的数组分块;步骤2:数组访问模式指导的数据分布;步骤3:主从协作的数组转置;步骤4:外围数据传输简化;本发明提升了程序的执行效率。

    渐进式智能回溯向量化代码调优方法

    公开(公告)号:CN103207786A

    公开(公告)日:2013-07-17

    申请号:CN201310154727.0

    申请日:2013-04-28

    Abstract: 本发明涉及一种渐进式智能回溯向量化代码调优方法,主要包括以下步骤:(1)静态调优:在源程序中添加编译指示语句,生成向量化程序;(2)动态调优:进行动态插桩,获取程序剖面信息和动态插桩信息,根据反馈信息文件生成优化后的向量化程序;(3)配置向量化基础选项和优化选项,在向量化过程中逐一添加优化选项,并将调优结果与添加前的调优结果相比较,如当前调优结果优于上一次,则保留,否则回溯。通过采用上述步骤,能够优化生成代码中的向量化语句,提高生成代码的执行效率,从而缓解程序员设计和编写并行程序的压力,并充分发挥当前高性能巨型计算机系统的计算能力。

    基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置

    公开(公告)号:CN107193535A

    公开(公告)日:2017-09-22

    申请号:CN201710341195.X

    申请日:2017-05-16

    Abstract: 本发明涉及一种基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置,该方法包含:通过设定破环测试参数对待并行化程序区域进行依赖环破除测试,将SIMD扩展部件对应于待并行化程序区域中循环的局部并行,通过循环分段发掘待并行化程序区域中单层循环局部并行性;将循环分段依次应用在循环嵌套的每一层循环,对待并行化程序区域中整个循环嵌套进行SIMD并行化处理。本发明通过依赖环破除测试,减少不必要的循环分段造成的性能损耗,充分发掘单层循环的局部并行性,循环分段依次应用于循环嵌套的每一层循环实现整个循环嵌套的SIMD并行化,充分发挥SIMD短向量扩展部件的并行性,实现高性能计算线程间负载均衡、性能优化,对高性能计算具有重要意义。

Patent Agency Ranking