-
公开(公告)号:CN114217686A
公开(公告)日:2022-03-22
申请号:CN202110453264.2
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: G06F1/3234 , G06F7/483 , G06F17/15
Abstract: 本发明公开一种稠密卷积运算核心的低功耗方法,包括以下步骤:S1、分析平台指令特点,得到指令流数据重用高的数据存储格式P;S2、判断卷积输入数据是否为P存储格式,如果是,则跳转到S3;S3、将输入数据整理成P存储格式;S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。本发明在不损失高功耗课题效率的同时,显著降低了对存储部件的数据访存频次,从而降低存储部件数据访问的功耗,进而显著降低高功耗课题的CPU运行功耗,缓解功耗墙难题、节约能耗。
-
公开(公告)号:CN114217939B
公开(公告)日:2025-05-16
申请号:CN202110381609.8
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种异步通信优化方法,S1、判断物理资源是否满足大于等于用户程序所需进程数2倍的条件;S2、为用户程序的各个进程间隔分配控制核心作为进程控制核心,并在每个用户进程之间启用一个空闲的控制核心作为专用控制核心,所述进程控制核心与所述专用控制核心组成与用户进程一一对应的异步控制核心;S3、实现单个进程控制核心与多个运算核心阵列的逻辑组合;S6、当位于进程控制核心的用户程序进程(主线程)进行与位于专用控制核心的通信探查服务关键互斥操作时,对线程信号量置1,以主动抢锁并进行关键互斥操作,抢锁成功后信号量置0,允许通信探查服务继续竞争线程锁。本发明可有效提升通信密集型大规模并发应用的整体性能。
-
公开(公告)号:CN114244708B
公开(公告)日:2023-08-08
申请号:CN202110452524.4
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: H04L41/0823 , H04L41/12 , H04L41/083 , H04L41/0896
Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。
-
公开(公告)号:CN112559197B
公开(公告)日:2022-11-15
申请号:CN201910852525.0
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于异构众核处理器的卷积计算数据重用方法,CPU通过数据块A和数据块B完成数据块C的卷积计算,包括以下步骤:S1、根据异构众核处理器的内核数,二维映射成N*N个,将数据块A、数据块B、数据块C划分为N*N块,第(i,j)号内核将第(j,i)块数据从内存读取到自己的片上存储器内,数据块C(i,j)的卷积计算需要数据块A(i,k)和数据块B(k,j),其中k=1,2,……,N;S2、进入循环k,循环次数从1到N,共N次,利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求,充分发挥众核计算能力,从而实现卷积计算高性能,提升其在异构众核处理器上的计算性能。
-
公开(公告)号:CN114244708A
公开(公告)日:2022-03-25
申请号:CN202110452524.4
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: H04L41/0823 , H04L41/12 , H04L41/083 , H04L41/0896
Abstract: 本发明公开一种胖树网络结构上的通信优化方法,包括以下步骤:S1、假设每个超节点包含的节点数量为N,根据裁剪胖树裁剪比例1/X,计算每个超节点同时通信的最大进程数M=N*(1/X),M为同时通信时,理论上能用满带宽的超节点内最大进程数;S2、根据课题的通信方式,得到课题需要同时通信的进程数量K;S3、若K小于超节点内节点数量,将每个超节点按照K个进程为1组,分为若干组,转S;S4、按超节点内的组号和组内编号,结合具体的路由规则,对超节点进行逻辑编号;S5、按照新的逻辑编号和课题特征,依次进行组内和组间通信。本发明实现了应用课题和系统的结合,显著提高了课题的带宽利用率,充分发挥了系统的网络性能。
-
公开(公告)号:CN114239669A
公开(公告)日:2022-03-25
申请号:CN202110398219.1
申请日:2021-04-14
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种异构众核架构上基于算子融合的数据复用方法,将DNN算子库中依次调用的至少两个算子A、B进行功能融合,获得融合算子C,执行以下操作:S1、融合算子C从主存中读取数据到局存中,并将读取的数据作为算子A的输入;S2、算子A将获取的数据作为输入,进行相应的运算,完成算子A的功能计算,此时算子A将结果保留在局存中不写回主存;S3、算子A将局存中的计算结果传递给算子B,作为算子B的输入;S4、算子B将来自算子A的数据作为输入;S5、算子B完成运算后,将最终的计算结果从局存写回主存;S6、算子C运算结束。本发明极大减少了内存访问次数,提高了数据的复用率,综合提升了可融合算子的效率。
-
公开(公告)号:CN112445627A
公开(公告)日:2021-03-05
申请号:CN201910826408.7
申请日:2019-09-03
Applicant: 无锡江南计算技术研究所
IPC: G06F9/54
Abstract: 本发明公开一种基于MPI的软件消息重传容错方法,基于MPI消息库,包括以下步骤:S1、消息发送方发起消息发送操作,并发起对消息接收方网络接口的请求(Req);S2、接收方接收来自发送方的请求和/或消息数据后,发送一个消息应答(Ack)给消息发送方;S3、消息发送方收到来自消息接收方的消息应答(Ack),确认消息发送成功,否则,进入S4;S4、位于消息发送方的消息容错处理模块向消息接收方发起针对消息的查询请求;S5、位于消息接收方的消息容错处理模块查询本地与该消息相关的硬件资源,并将查询结果返回给发送方;S6、消息发送方根据查询结果,确定是否重传消息。本发明通过查询/应答协议确认消息丢包错误,使用消息重传实现容错,为网络通信容错提供支持,且对用户透明。
-
公开(公告)号:CN109117288A
公开(公告)日:2019-01-01
申请号:CN201810928707.7
申请日:2018-08-15
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种低延迟旁路的消息优化方法,该方法采用旁路方式,对于满足一定长度要求的用户消息请求,采用快速旁路方式处理,减少用户函数到底层消息操作的调用层次;同时,不在通信支撑环境中对用户消息数据以及包头进行组包操作,而是将这些信息直接写入网络接口芯片的短快消息通路条目中,减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短快消息通路,在降低硬件处理开销的同时,从软件层面尽量减少消息数据的启动和处理开销,有效降低短消息通信延迟。
-
公开(公告)号:CN107168683A
公开(公告)日:2017-09-15
申请号:CN201710310445.3
申请日:2017-05-05
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
Abstract: 本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法,针对国产申威众核处理器26010,并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性,优化矩阵分块与核间数据映射方法,设计了自顶向下的三级分块并行块矩阵乘算法,基于寄存器级通信机制设计从核计算资源数据共享方法,并利用主从核间异步DMA数据传输机制,设计了计算与访存重叠的双缓冲策略,在单个从核上,设计了循环展开策略与软件流水线排布方法,使用了高效的寄存器分块模式以及SIMD向量化乘加指令,实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比,平均加速比为227.94,最高加速比为296.93。
-
公开(公告)号:CN112532539B
公开(公告)日:2023-03-28
申请号:CN201910879920.8
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: H04L47/629
Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。
-
-
-
-
-
-
-
-
-