一种胖树网络结构上的通信优化方法

    公开(公告)号:CN114244708B

    公开(公告)日:2023-08-08

    申请号:CN202110452524.4

    申请日:2021-04-26

    Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。

    基于异构众核处理器的卷积计算数据重用方法

    公开(公告)号:CN112559197B

    公开(公告)日:2022-11-15

    申请号:CN201910852525.0

    申请日:2019-09-10

    Abstract: 本发明公开一种基于异构众核处理器的卷积计算数据重用方法,CPU通过数据块A和数据块B完成数据块C的卷积计算,包括以下步骤:S1、根据异构众核处理器的内核数,二维映射成N*N个,将数据块A、数据块B、数据块C划分为N*N块,第(i,j)号内核将第(j,i)块数据从内存读取到自己的片上存储器内,数据块C(i,j)的卷积计算需要数据块A(i,k)和数据块B(k,j),其中k=1,2,……,N;S2、进入循环k,循环次数从1到N,共N次,利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求,充分发挥众核计算能力,从而实现卷积计算高性能,提升其在异构众核处理器上的计算性能。

    一种胖树网络结构上的通信优化方法

    公开(公告)号:CN114244708A

    公开(公告)日:2022-03-25

    申请号:CN202110452524.4

    申请日:2021-04-26

    Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。

    一种异构众核架构上基于算子融合的数据复用方法

    公开(公告)号:CN114239669A

    公开(公告)日:2022-03-25

    申请号:CN202110398219.1

    申请日:2021-04-14

    Abstract: 本发明公开一种异构众核架构上基于算子融合的数据复用方法,将DNN算子库中依次调用的至少两个算子A、B进行功能融合,获得融合算子C,执行以下操作:S1、融合算子C从主存中读取数据到局存中,并将读取的数据作为算子A的输入;S2、算子A将获取的数据作为输入,进行相应的运算,完成算子A的功能计算,此时算子A将结果保留在局存中不写回主存;S3、算子A将局存中的计算结果传递给算子B,作为算子B的输入;S4、算子B将来自算子A的数据作为输入;S5、算子B完成运算后,将最终的计算结果从局存写回主存;S6、算子C运算结束。本发明极大减少了内存访问次数,提高了数据的复用率,综合提升了可融合算子的效率。

    一种Cache一致性极限测试方法

    公开(公告)号:CN105446840B

    公开(公告)日:2019-02-12

    申请号:CN201510827235.2

    申请日:2015-11-24

    Abstract: 本发明提供了一种Cache一致性极限测试方法,包括:执行Cache的规模和结构配置,其中根据Cache大小、Cache行长度、相连路组的数量以及一致性策略,确定Cache一致性极限测试的粒度、访存顺序和访存的Cache入口地址,而不遍历整个Cache;设置用于精确错误定位的初始值和数据还原运算,其中采用地址作为初始值,数据还原操作采用拍数最少的移位运算;设置多粒度高密度访存方式,其中使得Cache的操作以Cache行为单位,不同的处理器以并行进程同时或交替对同一个Cache行进行访存;设置与系统相关的Cache协议验证。

    一种低延迟旁路的消息优化方法

    公开(公告)号:CN109117288A

    公开(公告)日:2019-01-01

    申请号:CN201810928707.7

    申请日:2018-08-15

    Abstract: 本发明公开一种低延迟旁路的消息优化方法,该方法采用旁路方式,对于满足一定长度要求的用户消息请求,采用快速旁路方式处理,减少用户函数到底层消息操作的调用层次;同时,不在通信支撑环境中对用户消息数据以及包头进行组包操作,而是将这些信息直接写入网络接口芯片的短快消息通路条目中,减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短快消息通路,在降低硬件处理开销的同时,从软件层面尽量减少消息数据的启动和处理开销,有效降低短消息通信延迟。

    国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法

    公开(公告)号:CN107168683A

    公开(公告)日:2017-09-15

    申请号:CN201710310445.3

    申请日:2017-05-05

    Abstract: 本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法,针对国产申威众核处理器26010,并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性,优化矩阵分块与核间数据映射方法,设计了自顶向下的三级分块并行块矩阵乘算法,基于寄存器级通信机制设计从核计算资源数据共享方法,并利用主从核间异步DMA数据传输机制,设计了计算与访存重叠的双缓冲策略,在单个从核上,设计了循环展开策略与软件流水线排布方法,使用了高效的寄存器分块模式以及SIMD向量化乘加指令,实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比,平均加速比为227.94,最高加速比为296.93。

    一种Cache一致性极限测试方法

    公开(公告)号:CN105446840A

    公开(公告)日:2016-03-30

    申请号:CN201510827235.2

    申请日:2015-11-24

    CPC classification number: G06F11/2205 G06F11/2247 G06F11/2294 G06F11/263

    Abstract: 本发明提供了一种Cache一致性极限测试方法,包括:执行Cache的规模和结构配置,其中根据Cache大小、Cache行长度、相连路组的数量以及一致性策略,确定Cache一致性极限测试的粒度、访存顺序和访存的Cache入口地址,而不遍历整个Cache;设置用于精确错误定位的初始值和数据还原运算,其中采用地址作为初始值,数据还原操作采用拍数最少的移位运算;设置多粒度高密度访存方式,其中使得Cache的操作以Cache行为单位,不同的处理器以并行进程同时或交替对同一个Cache行进行访存;设置与系统相关的Cache协议验证。

    面向众核处理器的压缩感知稀疏重构加速方法

    公开(公告)号:CN117394863A

    公开(公告)日:2024-01-12

    申请号:CN202311403458.7

    申请日:2023-10-26

    Abstract: 本申请涉及一种面向众核处理器的压缩感知稀疏重构加速方法。所述方法包括:获取待采样数据的待采样信号,并确定待采样信号的初始稀疏向量;当对待采样信号进行压缩感知时,从内存读取第一测量矩阵和第二测量矩阵,对第一测量矩阵和第二测量矩阵进行张量积运算,生成测量矩阵,其中,测量矩阵为克罗内克结构;根据生成的测量矩阵对初始稀疏向量进行迭代更新,直至满足终止阈值条件,得到目标稀疏向量,以实现待采样信号的压缩感知稀疏重构。采用本方法可以减轻信号处理过程中内存的负担,提高压缩感知的运行效率和数据处理速率,灵活处理数据,具有可扩展性。

    一种处理器性能筛选方法
    30.
    发明公开

    公开(公告)号:CN114253705A

    公开(公告)日:2022-03-29

    申请号:CN202110381442.5

    申请日:2021-04-09

    Abstract: 本发明公开一种处理器性能筛选方法,包括以下步骤:将待筛选的处理器划分为n个子集;判断性能筛选是否完成;将处理器Pij的性能记为Aij;将子集i内所有处理器的性能值收集到根节点r,作为待分类的样本;选取分类数k,设置分类终止条件为k_thres;对于每个样本Aij,计算其到每个初始质心的欧式距离;S8、对于每个类别t,重新计算属于该类别的样本S[t]的平均值;对于每个类别t,将经过本轮筛选后剩余的处理器作为待筛选处理器,累加筛选总时间或筛选轮次,回到S1。本发明灵活性强、鲁棒性好,显著减少人为干预、利于筛片自动化,降低筛片人员工作负担和误操作可能,有助于提高筛片效率和效果。

Patent Agency Ranking