Patent search ap:("无锡江南计算技术研究所") AND inv:"刘鑫" Page 4

31.

发明公开
一种基于程序性能计数的异常进程快速定位方法有权

公开(公告)号：CN114238067A

公开(公告)日：2022-03-25

申请号：CN202110480190.1

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 刘鑫 , 彭达佳 , 刘勇 , 冯赟龙 , 王敬宇 , 陈华蓉 , 宋佳伟 , 孙川

IPC: G06F11/36 , G06K9/62

Abstract: 本发明公开一种基于程序性能计数的异常进程快速定位方法，包括以下步骤：S1、用户提交应用作业；S2、作业调度器在启动应用作业的同时，在每个任务对应的处理器上初始化预设的硬件性能计数器；S3、若程序正常执行直至结束，则基于性能计数器实现的性能计数不对程序产生干扰；S4、若程序执行错误，则启动错误定位处理流程；S45、报告异常任务，用于进一步展开精确的错误原因定位。本发明有效提高了开发人员的调试开发效率、提升了系统资源利用率。

32.

发明公开
一种面向异构众核平台的Im2col加速方法审中-实审

公开(公告)号：CN114219065A

公开(公告)日：2022-03-22

申请号：CN202110349448.4

申请日：2021-03-31

Applicant: 无锡江南计算技术研究所

Inventor： 黄则强 , 刘沙 , 刘鑫 , 陈德训 , 彭超 , 高捷 , 王宜鹏

IPC: G06N3/04 , G06N3/063 , G06N3/08

Abstract: 本发明公开一种面向异构众核平台的Im2col加速方法，C*H*W的张量经过Im2col变换后的矩阵形状为(C*Kh*Kw)*(Ho*Wo)，其中C是通道数，H和W分别为输入的高度和宽度，Kh和Kw为卷积核大小，Ho和Wo为输出张量的高度和宽度；根据C*Kh的大小选择不同的算法：当C*Kh大于等于64时，从变换后的矩阵出发，按照C*Kh进行任务划分；当C*Kh小于64时，从变换前的矩阵出发，按照C*H进行任务划分。本发明有效提高了Im2col变换的运算效率，作为卷积计算的前处理过程，有效保障了卷积算子和卷积神经网络的高效运行。

33.

发明公开
一种针对大规模系统深度学习数据并行的分级通信优化方法审中-实审

公开(公告)号：CN114218146A

公开(公告)日：2022-03-22

申请号：CN202110452650.X

申请日：2021-04-26

Applicant: 无锡江南计算技术研究所

Inventor： 刘沙 , 刘鑫 , 陈德训 , 彭超 , 黄则强 , 高捷 , 王宜鹏

IPC: G06F15/163 , G06N3/04 , G06N3/08

Abstract: 本发明公开一种针对大规模系统深度学习数据并行的分级通信优化方法，S1、根据所需计算节点总数，从若干个超节点中选择相同数量的计算节点，将计算节点按超节点进行分组；S2、每个计算节点计算出模型参数的梯度后，在分组内部进行MPI_Allreduce通信，计算出分组内的平均梯度；S3、各分组内的通信节点采用Ring_Allreduce算法进行梯度的Allreduce操作，计算出所有计算节点的平均梯度；S4、通信节点在分组内部进行Broadcast操作，完成所有计算节点的梯度更新。本发明在大规模分布式深度学习应用中的梯度更新过程中，减少了高延迟通信次数，充分利用了高速网络的通信性能，提高了通信效率。

34.

发明公开
一种半精度浮点矩阵乘累加误差的优化方法审中-实审

公开(公告)号：CN114217765A

公开(公告)日：2022-03-22

申请号：CN202110480219.6

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 刘沙 , 陈德训 , 刘鑫 , 黄则强 , 彭超 , 高捷 , 王宜鹏

IPC: G06F7/487 , G06F17/16

Abstract: 本发明公开一种半精度浮点矩阵乘累加误差的优化方法，针对半精度浮点矩阵乘的分块运算，在进行分块结果累加计算时，先进行各分块内部累加，再进行分块间累加，具体包括以下步骤：S1、两个形状为M*K和K*N的矩阵进行半精度矩阵乘法时，如果K大于64，则将矩阵数据按kernel(M*N*K为8*32*32)进行分块；S2、每组分块中，对矩阵乘法的结果进行内部累加；S3、将S2中获得的每组分块的结果进行块间累加。本发明有效缓解了由于半精度类型数据表示范围较小导致的计算结果误差较大的问题。

35.

发明公开
针对深度学习的浮点矩阵乘算子众核并行优化方法无效

公开(公告)号：CN112732630A

公开(公告)日：2021-04-30

申请号：CN201910975075.4

申请日：2019-10-14

Applicant: 无锡江南计算技术研究所

Inventor： 刘沙 , 刘鑫 , 黄则强 , 陈德训 , 朱传家 , 彭超 , 裴阳 , 陆旭峰

IPC: G06F15/173 , G06F17/16 , G06F7/523 , G06F7/57 , G06F9/54

Abstract: 本发明公开一种针对深度学习的浮点矩阵乘算子众核并行优化方法，包括将输入矩阵和输出矩阵进行扩展和在从核阵列上基于分块矩阵乘法进行计算；所述将输入矩阵和输出矩阵进行扩展包括以下步骤：S1、预申请扩展矩阵的空间；S2、在预申请空间上对输入矩阵和输出矩阵进行排布；S3、对于行方向M不整除情况，行数小于M的部分，按行读入N个数据，并对非整除列赋零后扩展为N_size个数据，写回扩展矩阵的对应位置；S4、对于列方向N不整除部分，首先从原始矩阵跨步读入右侧N不整除部分数据到局存，倒序扩展第N+1到N_size列为0。发明既可以减少访存的开销，又可以使算法的适用范围得到扩展，对于任意维度都有很好的支持。

36.

发明公开
基于序列分层的异构众核快速傅里叶变换方法有权

公开(公告)号：CN112559952A

公开(公告)日：2021-03-26

申请号：CN201910918627.8

申请日：2019-09-26

Applicant: 无锡江南计算技术研究所

Inventor： 孙唯哲 , 陈鑫 , 陈德训 , 刘鑫 , 李芳 , 徐金秀 , 郭恒 , 赵朋朋

IPC: G06F17/14

Abstract: 本发明公开一种基于序列分层的异构众核快速傅里叶变换方法，包括以下步骤：S1、将待转序列按FFT运算层序进行分块，分块大小为当前运算层一次基本运算的子序列大小，即第1次分块时，每个分块的大小为2，即将输入序列分成大小为2的若干个小块；第2次分块时，每个分块的大小为4，即将输入序列分成大小为4的若干个小块；以此类推，第n次分块时，每个分块的大小为2n，即将输入序列分成大小为2n的若干个小块；一直分到每个分块的大小与输入序列的长度相同为止；S2、将每一层的分块并行地利用异构众核架构进行加速运算，通过片上网络实现分块内部的众核加速。本发明提高大规模数据的FFT算法性能。

37.

发明公开
基于片上分块的大规模三维矩阵转置的众核并行优化方法无效

公开(公告)号：CN112559435A

公开(公告)日：2021-03-26

申请号：CN201910918612.1

申请日：2019-09-26

Applicant: 无锡江南计算技术研究所

Inventor： 王礼生 , 孙唯哲 , 王臻 , 陈德训 , 刘鑫 , 赵朋朋 , 李芳 , 陈鑫 , 郭恒

IPC: G06F15/173

Abstract: 本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，包括以下步骤：S1、根据三维数组的最高维对每个从核的任务进行划分，利用异构众核访存接口实现数据的快速传输；S2、利用片上加速接口对矩阵进行分块，通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块，利用异构众核架构对分块进行并行加速，实现高效的数组转置，适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件，极大的提高程序整体性能。

38.

发明公开
面向异构众核架构的离散访存读写方法无效

公开(公告)号：CN112540936A

公开(公告)日：2021-03-23

申请号：CN201910898087.1

申请日：2019-09-23

Applicant: 无锡江南计算技术研究所

Inventor： 李芳 , 叶跃进 , 陈德训 , 刘鑫 , 徐金秀 , 孙唯哲 , 陈鑫 , 郭恒 , 王臻

IPC: G06F12/0877 , G06F13/16

Abstract: 本发明公开一种面向异构众核架构的离散访存读写方法，包括以下步骤：S1、将众核组共同组成一个存储块，将参与计算的物理量均匀分布在各计算核心的私有存储空间中，并通过建立索引关系可找到不同下标计算时数组的具体位置，再利用核间通信机制实现核间数据的访问；S2、利用步骤S1的映射同时结合非阻塞通信来批量获取数据，并将重排好的数据存入本地私有高速缓冲区中；S3、将步骤S1以预处理方式独立于计算之外，并根据课题需求可使用主从异步并行方式，继续隐藏建立映射过程带来的额外开销。本发明面向异构众核架构的离散访存读写方法，其利用分布式存储技术及其映射机制与高效非阻塞批处理数据重排方法，有效避免频繁的访主存，提高众核并行效率。

39.

发明公开
基于指令序列与消息序列指引的深度依赖问题并行方法无效

公开(公告)号：CN112527394A

公开(公告)日：2021-03-19

申请号：CN201910879931.6

申请日：2019-09-18

Applicant: 无锡江南计算技术研究所

Inventor： 陈鑫 , 陈德训 , 刘鑫 , 李芳 , 徐金秀 , 孙唯哲 , 郭恒 , 王臻

IPC: G06F9/38 , G06F9/30

Abstract: 本发明公开一种基于指令序列与消息序列指引的深度依赖问题并行方法，包括以下步骤：S1、将解向量按块进行平均划分，通过这种划分将解向量中各元素之间的依赖性转换成向量块之间的依赖性；S2、将一个向量块完成计算称为一次更新操作，此一次更新操作需要以下三个步骤：S21、部分更新：接收前继块发送的数据；S22、自我更新：对块内元素进行计算更新；S23、完成更新：将本向量块求解完毕的元素发送给所依赖的后继块；S3、众核内每个计算核心按顺序计算相应的向量块，重复S2的更新操作步骤，实现了整个流水线作业计算；S4、为每个计算核心设计一串指令流，即指令序列。本发明提高众核内部通信的相互协作性，减少访存时间开销，实现有效加速。

40.

发明公开
非结构网格DILU预条件子众核并行优化算法有权

公开(公告)号：CN112446004A

公开(公告)日：2021-03-05

申请号：CN201910799250.9

申请日：2019-08-28

Applicant: 无锡江南计算技术研究所

Inventor： 刘鑫 , 倪鸿 , 李芳 , 叶跃进 , 郭恒 , 徐占

IPC: G06F17/11

Abstract: 本发明公开一种非结构网格DILU预条件子众核并行优化算法，包括以下步骤：S1、对所有的从核进行编号，建立众核通信模型；S2、对数组进行分块、编号，各核按块拷入数据，同时按块拷入相应的和；S3、依次确定各块的依赖关系；S4、根据依赖关系，第0块遍历计算一遍，将0号块的值全部更新，同时生成数据数组，发送至后面的块；S5、根据依赖关系，其余块接收来自前在先块的数据，遍历计算后，更新块内数据，同时生成数据数组，发送至后面的块；S6、当某一从核完成更新并将数据发送给需要的核之后，重新拷入新的块。本发明对科学计算领域常见的预条件子并行问题进行代码级优化，极大减少预处理时间，提高优化效率，对大规模线性方程组求解的性能提升效果更加显著。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification