-
公开(公告)号:CN117992714A
公开(公告)日:2024-05-07
申请号:CN202410173427.5
申请日:2024-02-07
Applicant: 无锡江南计算技术研究所
Abstract: 本申请实施例公开了基于局部采样的众核架构半精度稠密矩阵乘方法及装置。该方法包括:从至少两个目标矩阵中分别取目标子矩阵,并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵;根据所述目标子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理;若是,则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算。上述方案能够通过局部采样的方式获取目标矩阵中的目标子矩阵,进而根据目标子矩阵的乘积的元素最值判断是否需要对目标矩阵进行缩放,从而有效降低计算量,提高判断效率,实现了高效率的半精度矩阵乘计算。
-
公开(公告)号:CN112559031B
公开(公告)日:2022-10-04
申请号:CN201910910099.1
申请日:2019-09-25
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于数据结构的众核程序重构方法,包括基于提取基本类型数据结构的重构方法、基于数组降维的空间压缩的重构方法、基于增大传输字长的空间压缩的重构方法。本发明主要针对多级异构众核并行计算问题中多样化的数据结构,提供高效的数据结构重构方法,提高异构并行程序的计算效率。
-
公开(公告)号:CN114219083A
公开(公告)日:2022-03-22
申请号:CN202110452694.2
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法,包括以下步骤:S1、ONNX文件向Caffe2文件的映射,得到Caffe2格式的前向传播网络,S2、根据S1中获得的前向传播网络的信息,自动生成求梯度算子,得到反向传播网络,S3、根据满足生成完整反向传播网络的需要,设计用户配置信息格式,将配置信息融入上步骤的模型定义文件中。本发明可以自动产生包括正向传播神经网络、反向传播神经网络、运行控制块和辅助算子的模型文件,从而进行训练任务。
-
公开(公告)号:CN114218881A
公开(公告)日:2022-03-22
申请号:CN202110481466.8
申请日:2021-04-30
Applicant: 无锡江南计算技术研究所
IPC: G06F30/3308
Abstract: 本发明公开一种针对百量子级方形量子网格随机电路模拟方法,在利用张量网络方法对量子随机电路进行模拟的过程中,于是将张量网络切割成较小的张量片,存在不同的节点上;包括以下步骤:S1、将张量网络沿中线切割m次,以降低张量收缩路径中产生的最大张量片的阶数;S2、沿张量网络中线每切割1次,生成2^(L/8)个,独立的并行任务,将这些独立的任务分在不同的进程上并行计算,每个任务通过计算,得到一个标量结果,其中,L表示电路的层数;S3、将S2中获得的每个任务得到的标量结果相加,得到了张量的单振幅模拟结果。本发明可以降低模拟过程的内存需要,从而满足百量子比特以上量级量子随机电路的模拟需求。
-
公开(公告)号:CN114218736A
公开(公告)日:2022-03-22
申请号:CN202110453194.0
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: G06F30/20 , G06F15/16 , G06F119/08
Abstract: 本发明公开一种针对海洋模式ROMS众核优化的方法,包括以下步骤:S1、查找、确认并分析海洋模式中的热点函数,找出热点函数的特点;S2、根据S1中的分析结果,找出排名前三的热点函数都是属于计算密集型、不涉及数据相关性、但存在跨步访存问题的函数;S3、对S2中获得的热点函数的计算部分,利用循环段程序重构,将跨步访存变为连续访存;S4、利用编译指示语句对循环段进行众核优化,将循环段计算任务分发到不用的众核上;S5、对编译指示语句进行调优,通过多轮对比测试,作为最终的优化版本,可供模式其他算例使用。本发明在提升主核访存性能的同时,也有利于从核进行灵活的分块和合并等操作,还可以达到众核加速的效果。
-
公开(公告)号:CN114218065A
公开(公告)日:2022-03-22
申请号:CN202110453215.9
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开一种指令流一致性测试方法,S1、初始化各项参数;S2、读入命令行参数;S3、设置共享空间的大小,申请共享的可执行空间;S4、Fork进程,并将进程绑定在不同核心上;S5、进入指令Cache测试入口模块,初始化由随机数组成的数组,并添加前缀指令;S6、进入自动测试模块;S7、进入执行指令模块;S8、执行指令模块运行结束,并进入结束测试模块;S9、在结束测试模块中,判断是否超过设定的执行遍数,如果超过,则进行结果校验,如果没超过,则再次进入自动测试模块;S10、结束测试后,汇报测试结果并回收进程,然后退出并结束。本发明解决了指令Cache一致性验证困难的问题。
-
公开(公告)号:CN114218064A
公开(公告)日:2022-03-22
申请号:CN202110426746.9
申请日:2021-04-20
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于遗传算法的极端测试用例生成方法,包括以下步骤:S1、种群生成器生成初始种群;S2、适应值计算器对S1中获得的初始种群中每个个体进行适应值计算;S3、适应值收集模块收集所有个体的适应值,并反馈给遗传算法核心;S4、遗传算法核心判断是否获得近优解,得到近优解并跳转到S5,若还未获得近优解,遗传算法核心根据上一代的适应值结果,交叉和变异产生多组指令序列,并由种群生成器嵌入汇编代码,生成下一代种群,跳转到S2;S5、得到近优解汇编代码。本发明不需要人工排指令来编写极端测试用例,可以自动生成特定的极端测试用例。
-
公开(公告)号:CN114218062A
公开(公告)日:2022-03-22
申请号:CN202110425772.X
申请日:2021-04-20
Applicant: 无锡江南计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开一种测试程序批量变种方法,包括以下步骤:S1、对测试程序源码进行分析,确定核心代码段区间;S2、得到核心段代码调用的函数代码;S3、对于改变程序执行路径的测试程序,将其核心代码段进行复制并使用if/else结构对两段相同的核心代码段进行区分,将S2得到的核心段代码调用的函数代码复制,将其中一份函数代码的函数名加上后缀,同时将if/else结构中if条件内的代码段调用的函数加上后缀;S4、得到变种程序源码;S5、将变种程序源码编译成汇编代码;S6、得到变种汇编代码;S7、将变种汇编代码编译成可执行文件。本发明解决了高速缓存一致性测试程序集合中的程序不够丰富,覆盖面不够全面的问题。
-
公开(公告)号:CN114217935A
公开(公告)日:2022-03-22
申请号:CN202110209591.3
申请日:2021-02-25
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50 , G06F17/18 , G06F12/0884
Abstract: 本发明公开一种解决耦合器插值计算的众核并行优化算法,包括以下步骤:S1、运行插值计算程序,并根据插值计算程序的运行结果获取插值计算中的核心代码;S2、针对S1中获取的核心代码,逐行进行分析,获取核心代码中作为输入输出变量的全局变量;S3、对S2中获取的全局变量,按照数据结构复杂度分为基础数据类型变量与复杂数据类型变量两类;S4、分析通过S3分类获得的每个复杂数据类型变量;S5、将通过S3分类获得的复杂数据类型变量进行数据结构优化;S6、使用按照上述步骤编写的代码替换插值计算程序中相对应的代码,重新进行程序的编译和运行。本发明能够大幅度减少从核的离散访存开销,极大程度的提高众核并行程序的运算速度,最终提高地球系统模式的性能。
-
公开(公告)号:CN109684061A
公开(公告)日:2019-04-26
申请号:CN201811583475.2
申请日:2018-12-24
Applicant: 无锡江南计算技术研究所
CPC classification number: G06F9/4881 , G06F9/5066 , G06F9/5083 , G06F2209/5018
Abstract: 本发明公开一种非结构网格众核粗粒度并行计算方法,该方法在第一级非结构网格的区域分解的基础上增加了第二级的线程级区域分解,每个从核求解各自的独立计算区域,保证从核核心计算任务的数据命中率,实现MPI进程级的粗粒度并行和从核线程级的粗粒度并行。本发明能够解决一般非结构网格应用在多态异构处理器上的适应性问题,根据非结构网格数据规模自动完成二级负载平衡和计算核心的粗粒度众核并行,提高了异构体系结构上非结构网格数值模拟的计算效率和并行效率。
-
-
-
-
-
-
-
-
-