-
公开(公告)号:CN112445482B
公开(公告)日:2022-11-15
申请号:CN201910794946.2
申请日:2019-08-27
Applicant: 无锡江南计算技术研究所
IPC: G06F8/41
Abstract: 本发明公开一种面向容量受限的程序栈空间深度追溯方法,包括以下步骤:S1、在链接器中建立函数信息的数据结构,形成函数调用关系流程图;S2、获取所有的函数符号信息,建立相应的函数信息数据结构,并将函数的名称、PC值范围、自身栈空间深度信息安装到对应的函数信息结构中;S3、遍历程序所有的重定位信息,根据重定位信息来确定函数调用关系,根据分析结果更新各个函数信息的链表指针;S4、对建立的函数调用关系图做深度优先遍历,通过累加计算获取根节点函数的栈空间深度,对所有根节点栈空间深度做排序后输出。本发明通过静态分析的方法获取栈空间信息,无需重新编译,无需运行插桩,对于程序分析、错误定位以及程序优化有着很好的指导作用。
-
公开(公告)号:CN115268837A
公开(公告)日:2022-11-01
申请号:CN202210966710.4
申请日:2022-08-12
Applicant: 无锡江南计算技术研究所
IPC: G06F7/53 , G06F7/509 , G06F3/06 , G06F9/445 , G06F12/0877
Abstract: 本发明涉及累加器缓冲技术领域,具体为一种累加器缓冲的数据累加卸载系统及方法。一种累加器缓冲的数据累加卸载系统,包括一累加器缓冲控制逻辑和多个累加器缓冲模块;每一所述累加器缓冲模块均包括一控制寄存器,与所述累加器缓冲控制逻辑电性连接,用于接收并暂存所述累加器缓冲控制逻辑发出的控制信号;一数据累加卸载子模块,与所述控制寄存器电性连接,包括缓冲本体,用于按缓冲条目先后顺序缓存累加结果;结果处理单元,与所述缓冲本体电性连接。本发明的实施例中,累加器缓冲模块能够一边通过缓冲本体对累加结果进行缓存,一边通过结果处理单元对缓冲本体中已缓存的累加结果进行卸载,有效提高了累加器缓冲的工作效率。
-
公开(公告)号:CN113157432B
公开(公告)日:2022-10-04
申请号:CN202110152788.8
申请日:2021-02-04
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种基于RISC处理器的firmware替换方法,包括以下步骤:S1、使用烧写FLASH的方式将原来的firmware替换为包含有yscall_swpfirmware_base.S模块的firmware;S2、重启平台;S3、加载hotswap_mod.c内核模块;S4、执行hotswap_user_top.c模块代码,将待替换的firmware从磁盘加载到用户空间的内存区域中。本发明可以在不重新烧写FLASH、不关机的情况下替换firmware,还避免了现有替换方法中需要再次烧写替换成原来的firmware的情况。
-
公开(公告)号:CN112631693B
公开(公告)日:2022-10-04
申请号:CN201910903881.0
申请日:2019-09-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种运行时计算资源动态扩展方法,发送资源扩展升级命令给正在运行的原课题;原节点接到升级信号后,进行通信环境清理;等待新进计算资源进行二次通信环境重构通信;新节点由作业管理启动程序,进入动态任务划分区域中;判断为资源升级新节点后,新节点进行通信环境清理;原节点与新节点进行二次通信环境重构;新节点按照动态任务划分规则自动进行分区,选取分区主节点,由分区主节点向全局主节点申请任务;全局主节点在接到原分区和新分区主节点的任务申请后,向原计算资源节点和新计算资源节点均匀分配任务,课题继续正常运行。本发明解决资源调整后的通信环境重构问题,在不中断已运行课题的基础上将空闲的计算资源分配给该课题,并动态分配未完成的任务,达到计算资源的最大化利用。
-
公开(公告)号:CN112631548B
公开(公告)日:2022-10-04
申请号:CN202011524239.0
申请日:2020-12-22
Applicant: 无锡江南计算技术研究所
IPC: G06F7/523
Abstract: 本发明公开一种基于混合粒度乘法部件的多精度乘法器及运算方法,所述运算方法包括以下步骤:调度器将乘法运算的两个位宽分别为Mbit、Nbit的操作数进行分割;调度器计算步骤1中获得的每一组细粒度乘法运算结果需要向左移动的位数;调度器将步骤1中分割后的细粒度乘法运算的两个操作数和步骤2中对应的左移位数打包成乘法器指令;调度器将步骤3中生成的乘法器指令送入计算单元的指令队列;细粒度乘法部件完成细粒度的乘法运算;将乘法结果向左移位后的结果送入加法树。本发明很好的平衡了计算延迟、计算能力的利用率和控制结构复杂度三者之间的关系,降低了控制结构的复杂度。
-
公开(公告)号:CN112540899B
公开(公告)日:2022-10-04
申请号:CN201910892364.8
申请日:2019-09-20
Applicant: 无锡江南计算技术研究所
IPC: G06F11/34
Abstract: 本发明公开了一种基于性能数据时空特性的分析装置,包括代码采集装置、性能采集装置、处理装置和显示装置,所述代码采集装置用于统计比重大于1%的代码空间、相同或具有90%以上重叠的代码空间、相同代码空间出现的时间节点和时间间隔以及同一代码空间与不同代码空间相邻出现的代码模式;所述性能采集装置根据代码采集装置的采集信息采集对应的性能事件;所述处理装置对采集信息进行处理,并筛选出性能事情的优缺点;所述显示装置根据处理装置输入的筛选信息,在显示屏上输出并行程序的缺陷的和优化方向。本发明能够快速定位程序的性能瓶颈,并为用户提供优化方向,分析效率高、优化速度快。
-
公开(公告)号:CN110661728B
公开(公告)日:2022-10-04
申请号:CN201910866274.1
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
IPC: H04L47/52 , H04L49/103 , H04L49/109 , H04L49/253
Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。
-
公开(公告)号:CN112446471B
公开(公告)日:2022-09-13
申请号:CN201910799257.0
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于异构众核处理器的卷积加速方法,包括以下步骤:S1、根据异构众核处理器的核数,确定输入特征图和卷积核的多核划分方法,实现众核并行加速,S2、各计算核心将划分后的数据通过DMA的方式传输至片上存储器,实现片上存储加速,S3、将卷积操作核心计算过程中的标量计算操作优化为向量计算操作,实现SIMD指令加速,S4、结合异构众核处理器流水线特性,对卷积操作核心计算过程的指令流进行优化,以提高执行效率,实现指令并行加速。本发明对卷积操作进行加速,显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。
-
公开(公告)号:CN112445696B
公开(公告)日:2022-09-13
申请号:CN201910822174.9
申请日:2019-09-02
Applicant: 无锡江南计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开一种面向异构众核Dcache纵向一致性的调试方法,包括以下步骤:S1、启动软件调试器,运行可执行程序,设置若干个从核断点;S2、在程序运行到从核断点前,保存现场;S3、在预设的地址空间上预先设计一段指令,用于调用函数Flush,从而刷新当前从核所有Dcache行到主存中,当程序运行到从核断点前时,执行S2;S4、在完成从核Dcache的数据刷新后,利用ret指令,在程序运行到从核断点后,将程序的控制流转回到断点处理程序,实现现场的恢复;S5、当程序完成现场恢复后,返回程序原来的指令,继续往下执行。本发明在不增加硬件实现开销的前提下,保证软件调试时获取到真实有效的数据,从而实现错误现场的精确定位,有效支撑了异构众核上的软件调试,保证了软件调试功能的可用性。
-
公开(公告)号:CN112445675B
公开(公告)日:2022-09-13
申请号:CN201910822230.9
申请日:2019-09-02
Applicant: 无锡江南计算技术研究所
IPC: G06F11/30
Abstract: 本发明公开一种基于层树网络的大规模并行程序性能数据快速收集方法,包括以下步骤:S1、依据计算节点启动的进程最多能使用的端口号数目限制M,确定子收集节点所需负责的子节点数目m;S2、根据S1中获得m值,将所需采集性能数据的总进程数N划分为一个各个树层并行度相当的拓扑网络;S3、分析各个树层的数据传输效率比1:η1,η2,...,ηh‑1,其中h为树的深度;S4、根据S3中各个树层的数据传输效率比,实现对拓扑网络的优化;S5、通过socket建立层树收集网络,实现对性能数据的收集。本发明针对异构众核结构特征,结合异构众核处理器的特点,将部分收集进程下沉至计算节点上,并且结合各树层的数据传输效率对树型收集网络进行拓扑优化,能够实现大规模并行程序性能数据的快速收集。
-
-
-
-
-
-
-
-
-