一种编译自调优方法
    1.
    发明授权

    公开(公告)号:CN114217805B

    公开(公告)日:2025-05-16

    申请号:CN202110330631.X

    申请日:2021-03-26

    Abstract: 本发明公开一种编译自调优方法,包括以下步骤:S1、对代码进行插桩;S2、收集代码运行时的信息数据;S3、根据访存密集程度和计算密集程度,将目标代码分为四类;S4、将S3中的分类信息传递给S11;S5、对系统环境参数进行配置;S6、对通用编译优化选项进行配置;S7、对定制编译优化选项进行配置;S8、对通用编译优化选项与定制编译优化选项进行分析分类;S9、对自调优过程的环境参数进行配置;S10、将S9中环境参数的配置信息传递给S11;S11、对使能概率进行调整;S12、进行编译选项的自动调优;S13、获得一组编译优化选项组合能。本发明能够充分发挥出处理器及系统软件环境某些定制化设计带来的性能红利,提高编译自调优过程效率。

    一种胖树网络结构上的通信优化方法

    公开(公告)号:CN114244708B

    公开(公告)日:2023-08-08

    申请号:CN202110452524.4

    申请日:2021-04-26

    Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。

    基于异构平台的自适应节点融合编译优化方法

    公开(公告)号:CN112527304B

    公开(公告)日:2022-10-04

    申请号:CN201910885756.1

    申请日:2019-09-19

    Abstract: 本发明公开一种基于异构平台的自适应节点融合编译优化方法,包括以下步骤:S1、生成中间表示;S2、DAG融合子图识别;S3、节点融合策略;S4、代价评估;S5、自适应选择节点融合策略,即根据S4计算得到的第k个融合策略代价,结合目标后端的寄存器、cache、内存使用情况,自适应地选择最优的节点融合策略;S6、目标相关节点融合,根据节点融合策略,将S23中匹配得到的DAG子图的控制流和数据流关系,转移到S5选择出的节点融合策略所生成的融合后的DAG子图上,使用融合后的DAG子图替换融合前的DAG子图,转到S22;S7、生成目标代码,即编译器对降级完成后的DAG进行编译处理,生成异构平台代码。本发明为异构平台的节点融合优化提供精确指导,能够进一步挖掘异构平台复合指令的潜力,提升异构平台的性能。

    基于国产异构平台的自适应可变参数优化方法

    公开(公告)号:CN112527263B

    公开(公告)日:2022-10-04

    申请号:CN201910885748.7

    申请日:2019-09-19

    Abstract: 本发明公开一种基于国产异构平台的自适应可变参数优化方法,包括以下步骤:S1、根据架构信息选择相应架构的ABI接口,编译器前端根据相应的ABI接口中的ABI约定对源程序进行处理,生成中间表示;S2、编译器后端扫描分析函数中的可变参函数,收集可变参函数的参数使用情况;S3、根据S2中扫描分析得到的信息,依据可变参数的数据类型和可变参数所存入的寄存器的不同,对可变参数进行后端对函数降级前的处理,为编译器后端的函数降级过程做准备;S4、编译器后端对可变参数的内建函数进行降级处理,获得降级后的中间表示;S5、生成汇编文件,即根据降级后的中间表示生成汇编指令。本发明实现了优化可变参函数的内存和减少访存指令的算法,提高了程序的性能。

    针对片上存储器重用的链接时地址分配方法

    公开(公告)号:CN112445724B

    公开(公告)日:2022-09-13

    申请号:CN201910805599.9

    申请日:2019-08-29

    Abstract: 本发明公开一种针对片上存储器重用的链接时地址分配方法,包括以下步骤:S1、在编译器上构建片上存储器的重用段类型,生成片上存储器的访存模式;S2、在执行S1中操作的同时,对链接脚本进行配置;S31、链接器对S2中所述的链接脚本进行信息扫描,进入链接器的重用处理函数;S32、从二进制文件格式描述符文件中获取段信息;S33、循环处理S32中获取的段信息,识别并找出重用段;S34、解析出S12中所述的重用段属性的数据结构中所带的重用段名字,对满足同一个重用段名字的段分配相同的虚拟内存地址;S35、从S32中获取的段信息中找出最大的段,用作该重用段空间分配时的空间大小。本发明通过链接时地址分配方法实现空间重用,有效提高片上存储器的空间利用率、提升程序性能。

    面向异构众核处理器的AI框架两级并行加速方法

    公开(公告)号:CN114661460A

    公开(公告)日:2022-06-24

    申请号:CN202210136541.1

    申请日:2022-02-15

    Abstract: 本发明公开一种面向异构众核处理器的AI框架两级并行加速方法,包括以下步骤:AI框架调用模型优化模块优化深度学习模型或者预训练好的模型,将其组织成更具可并行性的树形计算图;AI框架将优化后的树形计算图转换成由计算任务组成的线程池;线程管理模块根据相关性将线程池组织成不同的线程队列;线程管理模块监测各个核组的状态,如果发现某个核组处于空闲状态,则将某队列的计算任务调度到该核组上执行;当整个运行任务完成后,线程管理模块和核组管理模块均中止运行,等到下一次运行任务开始后。本发明可以充分利用异构众核的多级存储资源和计算能力,实现自动化的AI框架两级并行加速,显著提升AI框架在异构众核上的好用性和高性能。

    一种胖树网络结构上的通信优化方法

    公开(公告)号:CN114244708A

    公开(公告)日:2022-03-25

    申请号:CN202110452524.4

    申请日:2021-04-26

    Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。

    一种异构众核架构上基于算子融合的数据复用方法

    公开(公告)号:CN114239669A

    公开(公告)日:2022-03-25

    申请号:CN202110398219.1

    申请日:2021-04-14

    Abstract: 本发明公开一种异构众核架构上基于算子融合的数据复用方法,将DNN算子库中依次调用的至少两个算子A、B进行功能融合,获得融合算子C,执行以下操作:S1、融合算子C从主存中读取数据到局存中,并将读取的数据作为算子A的输入;S2、算子A将获取的数据作为输入,进行相应的运算,完成算子A的功能计算,此时算子A将结果保留在局存中不写回主存;S3、算子A将局存中的计算结果传递给算子B,作为算子B的输入;S4、算子B将来自算子A的数据作为输入;S5、算子B完成运算后,将最终的计算结果从局存写回主存;S6、算子C运算结束。本发明极大减少了内存访问次数,提高了数据的复用率,综合提升了可融合算子的效率。

    一种大规模互连网络的管理包收发方法

    公开(公告)号:CN114221861A

    公开(公告)日:2022-03-22

    申请号:CN202110324736.4

    申请日:2021-03-26

    Abstract: 本发明公开一种大规模互连网络的管理包收发方法,包括以下步骤:S1、初始设置;S2、自动控制,具体如下:S21、命令发送线程在发送时,判断curr_send_package是否小于max_send_package,若小于,则启动一个定时器,发送命令,加线程锁,curr_send_package+1,解除线程锁;否则,阻塞该线程,等待该线程被唤醒;S22、命令接收线程,接收到管理包,加线程锁,curr_send_package‑1,解除线程锁,发送唤醒线程信号;S3、自动处理。本发明解决了大规模互连网络中网络管理包收发堵塞和网络管理包收发效率低的问题。

    一种基于RNIC的多核处理器上消息性能故障定位方法

    公开(公告)号:CN114218021A

    公开(公告)日:2022-03-22

    申请号:CN202110347331.2

    申请日:2021-03-31

    Abstract: 本发明公开一种基于RNIC的多核处理器上消息性能故障定位方法,包括以下步骤:S1:在存控K上申请两片内存空间;S2:按K递增的顺序,通过RNIC串行将存控K中的发送数据发送到存控K中的接收数据中,进行第K+1轮测试;S3:得到测试性能数据bwK;S5:在存控K上申请两片内存空间;S6:通过RNIC并行将存控K中的发送数据发送到存控K+S中的接收数据中,进行第step=S+1轮测试;S7:计算消息性能bwS_K;S8:通过判断bwS_K是否低于最低带宽阈值bw_threshold来判断故障原因。本发明解决了基于RNIC的多核处理器上消息性能故障定位难的问题。

Patent Agency Ranking