面向异构众核处理器的AI框架两级并行加速方法

    公开(公告)号:CN114661460A

    公开(公告)日:2022-06-24

    申请号:CN202210136541.1

    申请日:2022-02-15

    Abstract: 本发明公开一种面向异构众核处理器的AI框架两级并行加速方法,包括以下步骤:AI框架调用模型优化模块优化深度学习模型或者预训练好的模型,将其组织成更具可并行性的树形计算图;AI框架将优化后的树形计算图转换成由计算任务组成的线程池;线程管理模块根据相关性将线程池组织成不同的线程队列;线程管理模块监测各个核组的状态,如果发现某个核组处于空闲状态,则将某队列的计算任务调度到该核组上执行;当整个运行任务完成后,线程管理模块和核组管理模块均中止运行,等到下一次运行任务开始后。本发明可以充分利用异构众核的多级存储资源和计算能力,实现自动化的AI框架两级并行加速,显著提升AI框架在异构众核上的好用性和高性能。

    一种带异步通知的乱序RDMA方法与装置

    公开(公告)号:CN110602211B

    公开(公告)日:2022-06-14

    申请号:CN201910870364.8

    申请日:2019-09-16

    Abstract: 一种带异步通知的乱序RDMA方法,包括步骤1:源方获取并记录RDMA消息的消息包信息,根据消息包信息从源方主存读取包数据,并将该包数据和对应的消息包信息封装成RDMA数据包,并发送给目标方;步骤2:在收到目标方返回响应包后,响应计数,收齐响应后,向目标方发送异步通知消息Send包;步骤3:在目标方将Send包写入接收队列并返回响应后,写完成事件。本发明,消息包支持乱序发射,减小对网络和路由方式的限制,使网络的构建更为灵活。使用源方计数的可靠性消息传输机制,保证消息可靠传输,简化硬件设计,节省硬件资源开销。由源方硬件自动发起异步通知消息通知目标方消息完成,实现消息完成事件的快速通知,降低消息延时。

    动态链接模式片上存储器空间分配方法

    公开(公告)号:CN114564150A

    公开(公告)日:2022-05-31

    申请号:CN202210185703.0

    申请日:2022-02-28

    Abstract: 本发明公开一种动态链接模式片上存储器空间分配方法,包括以下步骤:在程序源文件中为需要优化的数据添加动态链接模式局部存储器数据关键字__ldm;编译器判断该局部存储器变量是否位于动态库中;对于动态库中的局部存储器变量,在链接脚本中为其设置单独的PT_LOAD段;对于动态库中的局部存储器变量,在动态链接器中修正局部存储器数据地址。本发明能够有效避免动态库中LDM变量地址相互冲突的问题,显著提升了异构众核AI处理器的好用性。

    一种胖树网络结构上的通信优化方法

    公开(公告)号:CN114244708A

    公开(公告)日:2022-03-25

    申请号:CN202110452524.4

    申请日:2021-04-26

    Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。

    一种异构众核架构上基于算子融合的数据复用方法

    公开(公告)号:CN114239669A

    公开(公告)日:2022-03-25

    申请号:CN202110398219.1

    申请日:2021-04-14

    Abstract: 本发明公开一种异构众核架构上基于算子融合的数据复用方法,将DNN算子库中依次调用的至少两个算子A、B进行功能融合,获得融合算子C,执行以下操作:S1、融合算子C从主存中读取数据到局存中,并将读取的数据作为算子A的输入;S2、算子A将获取的数据作为输入,进行相应的运算,完成算子A的功能计算,此时算子A将结果保留在局存中不写回主存;S3、算子A将局存中的计算结果传递给算子B,作为算子B的输入;S4、算子B将来自算子A的数据作为输入;S5、算子B完成运算后,将最终的计算结果从局存写回主存;S6、算子C运算结束。本发明极大减少了内存访问次数,提高了数据的复用率,综合提升了可融合算子的效率。

    一种大规模互连网络的管理包收发方法

    公开(公告)号:CN114221861A

    公开(公告)日:2022-03-22

    申请号:CN202110324736.4

    申请日:2021-03-26

    Abstract: 本发明公开一种大规模互连网络的管理包收发方法,包括以下步骤:S1、初始设置;S2、自动控制,具体如下:S21、命令发送线程在发送时,判断curr_send_package是否小于max_send_package,若小于,则启动一个定时器,发送命令,加线程锁,curr_send_package+1,解除线程锁;否则,阻塞该线程,等待该线程被唤醒;S22、命令接收线程,接收到管理包,加线程锁,curr_send_package‑1,解除线程锁,发送唤醒线程信号;S3、自动处理。本发明解决了大规模互连网络中网络管理包收发堵塞和网络管理包收发效率低的问题。

    一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法

    公开(公告)号:CN114219083A

    公开(公告)日:2022-03-22

    申请号:CN202110452694.2

    申请日:2021-04-26

    Abstract: 本发明公开一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法,包括以下步骤:S1、ONNX文件向Caffe2文件的映射,得到Caffe2格式的前向传播网络,S2、根据S1中获得的前向传播网络的信息,自动生成求梯度算子,得到反向传播网络,S3、根据满足生成完整反向传播网络的需要,设计用户配置信息格式,将配置信息融入上步骤的模型定义文件中。本发明可以自动产生包括正向传播神经网络、反向传播神经网络、运行控制块和辅助算子的模型文件,从而进行训练任务。

    一种针对百量子级方形量子网格随机电路模拟方法

    公开(公告)号:CN114218881A

    公开(公告)日:2022-03-22

    申请号:CN202110481466.8

    申请日:2021-04-30

    Abstract: 本发明公开一种针对百量子级方形量子网格随机电路模拟方法,在利用张量网络方法对量子随机电路进行模拟的过程中,于是将张量网络切割成较小的张量片,存在不同的节点上;包括以下步骤:S1、将张量网络沿中线切割m次,以降低张量收缩路径中产生的最大张量片的阶数;S2、沿张量网络中线每切割1次,生成2^(L/8)个,独立的并行任务,将这些独立的任务分在不同的进程上并行计算,每个任务通过计算,得到一个标量结果,其中,L表示电路的层数;S3、将S2中获得的每个任务得到的标量结果相加,得到了张量的单振幅模拟结果。本发明可以降低模拟过程的内存需要,从而满足百量子比特以上量级量子随机电路的模拟需求。

    一种针对海洋模式ROMS众核优化的方法

    公开(公告)号:CN114218736A

    公开(公告)日:2022-03-22

    申请号:CN202110453194.0

    申请日:2021-04-26

    Abstract: 本发明公开一种针对海洋模式ROMS众核优化的方法,包括以下步骤:S1、查找、确认并分析海洋模式中的热点函数,找出热点函数的特点;S2、根据S1中的分析结果,找出排名前三的热点函数都是属于计算密集型、不涉及数据相关性、但存在跨步访存问题的函数;S3、对S2中获得的热点函数的计算部分,利用循环段程序重构,将跨步访存变为连续访存;S4、利用编译指示语句对循环段进行众核优化,将循环段计算任务分发到不用的众核上;S5、对编译指示语句进行调优,通过多轮对比测试,作为最终的优化版本,可供模式其他算例使用。本发明在提升主核访存性能的同时,也有利于从核进行灵活的分块和合并等操作,还可以达到众核加速的效果。

    一种基于握手协议的多核间缓存刷新方法

    公开(公告)号:CN114218264A

    公开(公告)日:2022-03-22

    申请号:CN202110347429.8

    申请日:2021-03-31

    Abstract: 本发明公开一种基于握手协议的多核间缓存刷新方法,包括以下步骤:发起核通过核间中断向其他核发起缓存刷新请求;发起核死等轮询其他核是否完成缓存刷新操作并计时;其他核接受到来自发起核的缓存刷新请求后,中断进入缓存刷新函数入口,完成缓存刷新;其他核向发起核告知缓存刷新任务完成,并死等轮询发起核的下一步命令;其他核收到发起核的任务退出命令,向发起核发送任务结束答复,并结束此次刷新任务。本发明方法可以保证操作系统完成该方法后的某个时间段内,所有处理器多核缓存的状态是干净的,避免多核间的由于资源竞争导致死锁问题。

Patent Agency Ranking