-
公开(公告)号:CN115271084B
公开(公告)日:2024-08-30
申请号:CN202210933691.5
申请日:2022-08-04
Applicant: 无锡江南计算技术研究所
Abstract: 一种面向量子加速设备的混合式编译方法,属于量子计算技术领域。本发明包括如下步骤:步骤S1,通过标准化的量子代码编程接口,对混合代码中的经典代码与量子代码进行识别;步骤S2,对经典代码进行编译,生成可执行码;步骤S3,运行经典代码的可执行码,若遇到量子代码编程接口,则进行步骤S4,并在接收到步骤S5的运行结果后,继续运行并重复本步骤的操作,直至整个计算进程结束;步骤S4,对量子代码进行编译,生成可执行码;步骤S5,运行量子代码的可执行码。本发明操作简单高效,易于实现,同时可靠性高。
-
公开(公告)号:CN114564397A
公开(公告)日:2022-05-31
申请号:CN202210185716.8
申请日:2022-02-28
Applicant: 无锡江南计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开一种基于控制约束的访存测试程序生成方法,包括以下步骤:步骤1、生成控制核心运行的程序,在其中声明可操作的地址空间大小以及首地址,并生成计算核心的代码段;步骤2、生成计算核心访存测试程序,将计算核心的访存首地址设置成控制程序申请的可操作首地址;步骤3、在计算核心访存地址遍历生成时,进行地址访存序列的控制生成;步骤4、根据步骤3中获得的参数,形成对应的测试程序。本发明面向国产向众核异构处理器实现满足约束条件的随机访存测试,另外能够根据访存策略进行定制,对处理器的存储一致性实现有针对性的验证测试,实现了合法且随机的访存测试程序生成。
-
公开(公告)号:CN114564396A
公开(公告)日:2022-05-31
申请号:CN202210185468.7
申请日:2022-02-28
Applicant: 无锡江南计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开一种基于数据路径约束求解的随机指令测试程序生成方法,包括以下步骤:S1、循环读取基于约束求解的随机指令序列文件,每次读取一行,若为空则跳转至S7;S2、根据S1中读取的内容,解析指令格式,获取指令名称以及指令格式中每一个操作数的类型;S3、随机读取与S2中解析的指令对应的数据路径约束求解结果文件,获取一组基于数据路径约束的验证元组数据;S4、将S3中获取的验证元组数据按照对界要求预先存储到局存空间中;S5、根据S1中自随机指令序列文件读取的当前随机指令;S6、跳转至S1继续读取指令序列进行解析;S7、生成结果校验代码。本发明可以提升随机指令测试的有效性。
-
公开(公告)号:CN114219065A
公开(公告)日:2022-03-22
申请号:CN202110349448.4
申请日:2021-03-31
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种面向异构众核平台的Im2col加速方法,C*H*W的张量经过Im2col变换后的矩阵形状为(C*Kh*Kw)*(Ho*Wo),其中C是通道数,H和W分别为输入的高度和宽度,Kh和Kw为卷积核大小,Ho和Wo为输出张量的高度和宽度;根据C*Kh的大小选择不同的算法:当C*Kh大于等于64时,从变换后的矩阵出发,按照C*Kh进行任务划分;当C*Kh小于64时,从变换前的矩阵出发,按照C*H进行任务划分。本发明有效提高了Im2col变换的运算效率,作为卷积计算的前处理过程,有效保障了卷积算子和卷积神经网络的高效运行。
-
公开(公告)号:CN114218146A
公开(公告)日:2022-03-22
申请号:CN202110452650.X
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
IPC: G06F15/163 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种针对大规模系统深度学习数据并行的分级通信优化方法,S1、根据所需计算节点总数,从若干个超节点中选择相同数量的计算节点,将计算节点按超节点进行分组;S2、每个计算节点计算出模型参数的梯度后,在分组内部进行MPI_Allreduce通信,计算出分组内的平均梯度;S3、各分组内的通信节点采用Ring_Allreduce算法进行梯度的Allreduce操作,计算出所有计算节点的平均梯度;S4、通信节点在分组内部进行Broadcast操作,完成所有计算节点的梯度更新。本发明在大规模分布式深度学习应用中的梯度更新过程中,减少了高延迟通信次数,充分利用了高速网络的通信性能,提高了通信效率。
-
公开(公告)号:CN114217765A
公开(公告)日:2022-03-22
申请号:CN202110480219.6
申请日:2021-04-30
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种半精度浮点矩阵乘累加误差的优化方法,针对半精度浮点矩阵乘的分块运算,在进行分块结果累加计算时,先进行各分块内部累加,再进行分块间累加,具体包括以下步骤:S1、两个形状为M*K和K*N的矩阵进行半精度矩阵乘法时,如果K大于64,则将矩阵数据按kernel(M*N*K为8*32*32)进行分块;S2、每组分块中,对矩阵乘法的结果进行内部累加;S3、将S2中获得的每组分块的结果进行块间累加。本发明有效缓解了由于半精度类型数据表示范围较小导致的计算结果误差较大的问题。
-
公开(公告)号:CN112732630A
公开(公告)日:2021-04-30
申请号:CN201910975075.4
申请日:2019-10-14
Applicant: 无锡江南计算技术研究所
IPC: G06F15/173 , G06F17/16 , G06F7/523 , G06F7/57 , G06F9/54
Abstract: 本发明公开一种针对深度学习的浮点矩阵乘算子众核并行优化方法,包括将输入矩阵和输出矩阵进行扩展和在从核阵列上基于分块矩阵乘法进行计算;所述将输入矩阵和输出矩阵进行扩展包括以下步骤:S1、预申请扩展矩阵的空间;S2、在预申请空间上对输入矩阵和输出矩阵进行排布;S3、对于行方向M不整除情况,行数小于M的部分,按行读入N个数据,并对非整除列赋零后扩展为N_size个数据,写回扩展矩阵的对应位置;S4、对于列方向N不整除部分,首先从原始矩阵跨步读入右侧N不整除部分数据到局存,倒序扩展第N+1到N_size列为0。发明既可以减少访存的开销,又可以使算法的适用范围得到扩展,对于任意维度都有很好的支持。
-
公开(公告)号:CN112559952A
公开(公告)日:2021-03-26
申请号:CN201910918627.8
申请日:2019-09-26
Applicant: 无锡江南计算技术研究所
IPC: G06F17/14
Abstract: 本发明公开一种基于序列分层的异构众核快速傅里叶变换方法,包括以下步骤:S1、将待转序列按FFT运算层序进行分块,分块大小为当前运算层一次基本运算的子序列大小,即第1次分块时,每个分块的大小为2,即将输入序列分成大小为2的若干个小块;第2次分块时,每个分块的大小为4,即将输入序列分成大小为4的若干个小块;以此类推,第n次分块时,每个分块的大小为2n,即将输入序列分成大小为2n的若干个小块;一直分到每个分块的大小与输入序列的长度相同为止;S2、将每一层的分块并行地利用异构众核架构进行加速运算,通过片上网络实现分块内部的众核加速。本发明提高大规模数据的FFT算法性能。
-
公开(公告)号:CN112559435A
公开(公告)日:2021-03-26
申请号:CN201910918612.1
申请日:2019-09-26
Applicant: 无锡江南计算技术研究所
IPC: G06F15/173
Abstract: 本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法,包括以下步骤:S1、根据三维数组的最高维对每个从核的任务进行划分,利用异构众核访存接口实现数据的快速传输;S2、利用片上加速接口对矩阵进行分块,通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块,利用异构众核架构对分块进行并行加速,实现高效的数组转置,适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件,极大的提高程序整体性能。
-
公开(公告)号:CN112540936A
公开(公告)日:2021-03-23
申请号:CN201910898087.1
申请日:2019-09-23
Applicant: 无锡江南计算技术研究所
IPC: G06F12/0877 , G06F13/16
Abstract: 本发明公开一种面向异构众核架构的离散访存读写方法,包括以下步骤:S1、将众核组共同组成一个存储块,将参与计算的物理量均匀分布在各计算核心的私有存储空间中,并通过建立索引关系可找到不同下标计算时数组的具体位置,再利用核间通信机制实现核间数据的访问;S2、利用步骤S1的映射同时结合非阻塞通信来批量获取数据,并将重排好的数据存入本地私有高速缓冲区中;S3、将步骤S1以预处理方式独立于计算之外,并根据课题需求可使用主从异步并行方式,继续隐藏建立映射过程带来的额外开销。本发明面向异构众核架构的离散访存读写方法,其利用分布式存储技术及其映射机制与高效非阻塞批处理数据重排方法,有效避免频繁的访主存,提高众核并行效率。
-
-
-
-
-
-
-
-
-