-
公开(公告)号:CN114217686A
公开(公告)日:2022-03-22
申请号:CN202110453264.2
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: G06F1/3234 , G06F7/483 , G06F17/15
Abstract: 本发明公开一种稠密卷积运算核心的低功耗方法,包括以下步骤:S1、分析平台指令特点,得到指令流数据重用高的数据存储格式P;S2、判断卷积输入数据是否为P存储格式,如果是,则跳转到S3;S3、将输入数据整理成P存储格式;S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。本发明在不损失高功耗课题效率的同时,显著降低了对存储部件的数据访存频次,从而降低存储部件数据访问的功耗,进而显著降低高功耗课题的CPU运行功耗,缓解功耗墙难题、节约能耗。
-
公开(公告)号:CN112527303A
公开(公告)日:2021-03-19
申请号:CN201910885728.X
申请日:2019-09-19
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种面向即时编译的基于动态库的GOT表管理方法,包括以下步骤:S1、创建包含GOT表的动态链接库,此GOT表位于动态链接库的数据段;S2、在即时编译引擎解析重定位前,动态载入GOT表到内存空间,并获取GOT表的首地址;S3、即时编译引擎根据程序代码段的重定位类型,进行GOT表覆写和重定位回填;S4、在程序即时编译执行结束后,动态释放包含GOT表的动态链接库;S42、退出即时编译。本发明降低了LLVM即时编译引擎对新增硬件后端中GOT表的支持难度,提高了LLVM即时编译引擎的移植效率,在基于国产处理器的LLVM即时编译引擎中快速实现了基于动态库的GOT表管理。
-
公开(公告)号:CN112446471A
公开(公告)日:2021-03-05
申请号:CN201910799257.0
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于异构众核处理器的卷积加速方法,包括以下步骤:S1、根据异构众核处理器的核数,确定输入特征图和卷积核的多核划分方法,实现众核并行加速,S2、各计算核心将划分后的数据通过DMA(直接存储器访问)的方式传输至片上存储器,实现片上存储加速,S3、将卷积操作核心计算过程中的标量计算操作优化为向量计算操作,实现SIMD指令加速,S4、结合异构众核处理器流水线特性,对卷积核心计算过程的指令流进行优化,以提高执行效率,实现指令并行加速。本发明对卷积操作进行加速,显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。
-
公开(公告)号:CN112445482A
公开(公告)日:2021-03-05
申请号:CN201910794946.2
申请日:2019-08-27
Applicant: 无锡江南计算技术研究所
IPC: G06F8/41
Abstract: 本发明公开一种面向容量受限的程序栈空间深度追溯方法,包括以下步骤:S1、在链接器中建立函数信息的数据结构,形成函数调用关系流程图;S2、获取所有的函数符号信息,建立相应的函数信息数据结构,并将函数的名称、PC值范围、自身栈空间深度信息安装到对应的函数信息结构中;S3、遍历程序所有的重定位信息,根据重定位信息来确定函数调用关系,根据分析结果更新各个函数信息的链表指针;S4、对建立的函数调用关系图做深度优先遍历,通过累加计算获取根节点函数的栈空间深度,对所有根节点栈空间深度做排序后输出。本发明通过静态分析的方法获取栈空间信息,无需重新编译,无需运行插桩,对于程序分析、错误定位以及程序优化有着很好的指导作用。
-
公开(公告)号:CN105426226B
公开(公告)日:2018-07-06
申请号:CN201510828419.0
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F8/41
Abstract: 本发明提供了一种异构代码融合的编译和生成方法,包括:利用运算控制核心编译器和运算核心编译器分别为运算控制核心和运算核心生成第一对象文件和第二对象文件;运算核心编译器自动实现对第一对象文件中的函数的重命名,在函数名的前加上前缀;链接器将重命名后第一对象文件与第二对象文件链接融合为统一的可执行程序。
-
公开(公告)号:CN102981802B
公开(公告)日:2015-10-07
申请号:CN201210441177.6
申请日:2012-11-06
Applicant: 无锡江南计算技术研究所
Abstract: 本发明提供的一种指令转化方法及系统,获得处理器对外部存储器中第一地址进行访问的指令并判断是否为常数,如果是,则判断第一地址中保存的数据的宽度是否满足预设的第一宽度要求,如果是,则对所述该指令进行转化,生成处理器对内部指令缓存器访问的立即数指令。本发明针对没有数据缓存器的处理器,可以将处理器对外部存储器中地址进行访问的指令转化为处理器对内部指令缓存器访问的立即数指令,从而无需处理器再对外部存储器进行访问。因此,本发明可以不再使处理器的处理速度受限于对外部存储器的访问速度,有效的解决了“存储墙”的问题,提高了处理器的实际处理速度。
-
公开(公告)号:CN114661460B
公开(公告)日:2025-05-20
申请号:CN202210136541.1
申请日:2022-02-15
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种面向异构众核处理器的AI框架两级并行加速方法,包括以下步骤:AI框架调用模型优化模块优化深度学习模型或者预训练好的模型,将其组织成更具可并行性的树形计算图;AI框架将优化后的树形计算图转换成由计算任务组成的线程池;线程管理模块根据相关性将线程池组织成不同的线程队列;线程管理模块监测各个核组的状态,如果发现某个核组处于空闲状态,则将某队列的计算任务调度到该核组上执行;当整个运行任务完成后,线程管理模块和核组管理模块均中止运行,等到下一次运行任务开始后。本发明可以充分利用异构众核的多级存储资源和计算能力,实现自动化的AI框架两级并行加速,显著提升AI框架在异构众核上的好用性和高性能。
-
公开(公告)号:CN114218021B
公开(公告)日:2025-01-10
申请号:CN202110347331.2
申请日:2021-03-31
Applicant: 无锡江南计算技术研究所
IPC: G06F11/22
Abstract: 本发明公开一种基于RNIC的多核处理器上消息性能故障定位方法,包括以下步骤:S1:在存控K上申请两片内存空间;S2:按K递增的顺序,通过RNIC串行将存控K中的发送数据发送到存控K中的接收数据中,进行第K+1轮测试;S3:得到测试性能数据bwK;S5:在存控K上申请两片内存空间;S6:通过RNIC并行将存控K中的发送数据发送到存控K+S中的接收数据中,进行第step=S+1轮测试;S7:计算消息性能bwS_K;S8:通过判断bwS_K是否低于最低带宽阈值bw_threshold来判断故障原因。本发明解决了基于RNIC的多核处理器上消息性能故障定位难的问题。
-
公开(公告)号:CN114217809B
公开(公告)日:2024-04-30
申请号:CN202110398338.7
申请日:2021-04-14
Applicant: 无锡江南计算技术研究所
IPC: G06F8/41
Abstract: 本发明公开一种无横向一致性的众核精简Cache协议实现方法,包括以下步骤:S1、对Cache行内数据更新情况进行分析,标记出被更新的数据;S2、如果Cache行内所有数据都没有被更新,或者Cache行内所有数据都被更新,跳转至S5,如果Cache行内只有部分数据被更新,跳转至S3;S3、当一个Cache行内的数据只有部分内容需要写回时,其他位掩码置0;S4、根据掩码粒度大小与置位情况,更新主存中对应掩码位为1的数据;S5、直接对Cache行进行写回操作。本发明有效解决共享主存Cache结构的假共享问题,还可以提高写回效率、有效降低处理器在Cache数据管理方面的硬件开销。
-
公开(公告)号:CN114244692B
公开(公告)日:2024-02-02
申请号:CN202110480187.X
申请日:2021-04-30
Applicant: 无锡江南计算技术研究所
IPC: H04L41/0677 , H04L43/0894
Abstract: 本发明公开一种适用于超大规模互连网络的故障快速定位方法,包括以下步骤:S1、以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常,筛选出PCIE链路及存控有问题的点;S2、以中板为单位,每个CPU上选2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值,筛选出有问题的计算网交换机;S3、以整个队列为单位,从每个中板中选出指定进程,所有中板一起进行A2A测试,筛选出有问题的顶层网交换机。本发明解决网络故障定位效率低和循环连续检查每个节点造成收发堵塞问题,极大提高网络故障的诊断效率。
-
-
-
-
-
-
-
-
-