Patent search ap:("无锡江南计算技术研究所") AND inv:"王臻" Page 1

1.

发明公开
非结构网格主从动态并行预处理方法无效

公开(公告)号：CN112445603A

公开(公告)日：2021-03-05

申请号：CN201910799247.7

申请日：2019-08-28

Applicant: 无锡江南计算技术研究所

Inventor： 李芳 , 刘鑫 , 孙唯哲 , 徐占 , 何香 , 王臻

IPC: G06F9/50

Abstract: 本发明公开一种非结构网格主从动态并行预处理方法，基于由多个物理块构成的千万及以上量级规模的网格，包括以下步骤：S1、主进程按照物理块顺序分配任务，将每个物理块的网格信息分发至各从进程；S2、从进程接收来自主进程的任务，并对每个物理块内的网格单元进行预处理；S3、从进程将预处理结果发回至主进程，并向主进程申请下一组网格进行预处理；S4、主进程将所有网格组分发完后，向从进程发送结束信号；S5、从进程收到结束信号后，从进程结束。本发明能满足千万及以上量级网格规模的数值模拟需求，解决大规模非结构网格预处理内存需求过大和效率低的问题。

2.

发明公开
基于片上分块的大规模三维矩阵转置的众核并行优化方法无效

公开(公告)号：CN112559435A

公开(公告)日：2021-03-26

申请号：CN201910918612.1

申请日：2019-09-26

Applicant: 无锡江南计算技术研究所

Inventor： 王礼生 , 孙唯哲 , 王臻 , 陈德训 , 刘鑫 , 赵朋朋 , 李芳 , 陈鑫 , 郭恒

IPC: G06F15/173

Abstract: 本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，包括以下步骤：S1、根据三维数组的最高维对每个从核的任务进行划分，利用异构众核访存接口实现数据的快速传输；S2、利用片上加速接口对矩阵进行分块，通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块，利用异构众核架构对分块进行并行加速，实现高效的数组转置，适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件，极大的提高程序整体性能。

3.

发明公开
面向异构众核架构的离散访存读写方法无效

公开(公告)号：CN112540936A

公开(公告)日：2021-03-23

申请号：CN201910898087.1

申请日：2019-09-23

Applicant: 无锡江南计算技术研究所

Inventor： 李芳 , 叶跃进 , 陈德训 , 刘鑫 , 徐金秀 , 孙唯哲 , 陈鑫 , 郭恒 , 王臻

IPC: G06F12/0877 , G06F13/16

Abstract: 本发明公开一种面向异构众核架构的离散访存读写方法，包括以下步骤：S1、将众核组共同组成一个存储块，将参与计算的物理量均匀分布在各计算核心的私有存储空间中，并通过建立索引关系可找到不同下标计算时数组的具体位置，再利用核间通信机制实现核间数据的访问；S2、利用步骤S1的映射同时结合非阻塞通信来批量获取数据，并将重排好的数据存入本地私有高速缓冲区中；S3、将步骤S1以预处理方式独立于计算之外，并根据课题需求可使用主从异步并行方式，继续隐藏建立映射过程带来的额外开销。本发明面向异构众核架构的离散访存读写方法，其利用分布式存储技术及其映射机制与高效非阻塞批处理数据重排方法，有效避免频繁的访主存，提高众核并行效率。

4.

发明公开
基于指令序列与消息序列指引的深度依赖问题并行方法无效

公开(公告)号：CN112527394A

公开(公告)日：2021-03-19

申请号：CN201910879931.6

申请日：2019-09-18

Applicant: 无锡江南计算技术研究所

Inventor： 陈鑫 , 陈德训 , 刘鑫 , 李芳 , 徐金秀 , 孙唯哲 , 郭恒 , 王臻

IPC: G06F9/38 , G06F9/30

Abstract: 本发明公开一种基于指令序列与消息序列指引的深度依赖问题并行方法，包括以下步骤：S1、将解向量按块进行平均划分，通过这种划分将解向量中各元素之间的依赖性转换成向量块之间的依赖性；S2、将一个向量块完成计算称为一次更新操作，此一次更新操作需要以下三个步骤：S21、部分更新：接收前继块发送的数据；S22、自我更新：对块内元素进行计算更新；S23、完成更新：将本向量块求解完毕的元素发送给所依赖的后继块；S3、众核内每个计算核心按顺序计算相应的向量块，重复S2的更新操作步骤，实现了整个流水线作业计算；S4、为每个计算核心设计一串指令流，即指令序列。本发明提高众核内部通信的相互协作性，减少访存时间开销，实现有效加速。

5.

发明公开
基于局部采样的众核架构半精度稠密矩阵乘方法及装置审中-实审

公开(公告)号：CN117992714A

公开(公告)日：2024-05-07

申请号：CN202410173427.5

申请日：2024-02-07

Applicant: 无锡江南计算技术研究所

Inventor： 赵朋朋 , 李芳 , 刘鑫 , 孙唯哲 , 郭恒 , 陈鑫 , 徐占 , 杨雨灵 , 韩笑颖 , 王臻

IPC: G06F17/16 , G06F7/523

Abstract: 本申请实施例公开了基于局部采样的众核架构半精度稠密矩阵乘方法及装置。该方法包括：从至少两个目标矩阵中分别取目标子矩阵，并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵；根据所述目标子乘积矩阵中元素的最值以及预设阈值，确定是否需要对目标矩阵进行缩放处理；若是，则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理，并进行乘积运算。上述方案能够通过局部采样的方式获取目标矩阵中的目标子矩阵，进而根据目标子矩阵的乘积的元素最值判断是否需要对目标矩阵进行缩放，从而有效降低计算量，提高判断效率，实现了高效率的半精度矩阵乘计算。

6.

发明公开
一种解决耦合器插值计算的众核并行优化算法审中-实审

公开(公告)号：CN114217935A

公开(公告)日：2022-03-22

申请号：CN202110209591.3

申请日：2021-02-25

Applicant: 无锡江南计算技术研究所

Inventor： 刘鑫 , 何香 , 李芳 , 徐金秀 , 孙唯哲 , 徐占 , 郭恒 , 陈鑫 , 赵朋朋 , 韩笑颖 , 杨雨灵 , 王臻

IPC: G06F9/50 , G06F17/18 , G06F12/0884

Abstract: 本发明公开一种解决耦合器插值计算的众核并行优化算法，包括以下步骤：S1、运行插值计算程序，并根据插值计算程序的运行结果获取插值计算中的核心代码；S2、针对S1中获取的核心代码，逐行进行分析，获取核心代码中作为输入输出变量的全局变量；S3、对S2中获取的全局变量，按照数据结构复杂度分为基础数据类型变量与复杂数据类型变量两类；S4、分析通过S3分类获得的每个复杂数据类型变量；S5、将通过S3分类获得的复杂数据类型变量进行数据结构优化；S6、使用按照上述步骤编写的代码替换插值计算程序中相对应的代码，重新进行程序的编译和运行。本发明能够大幅度减少从核的离散访存开销，极大程度的提高众核并行程序的运算速度，最终提高地球系统模式的性能。

Patent Agency Ranking