Patent search ap:("无锡江南计算技术研究所") AND inv:"魏迪" Page 1

1.

发明公开
一种网格化流水的全收集方法无效

公开(公告)号：CN114221871A

公开(公告)日：2022-03-22

申请号：CN202110381666.6

申请日：2021-04-09

Applicant: 无锡江南计算技术研究所

Inventor： 魏迪 , 王飞 , 孙浩男 , 尹万旺 , 袁欣辉 , 林蓉芬 , 孙强 , 史俊达

IPC: H04L41/12 , H04L67/1095 , H04L12/18

Abstract: 本发明公开一种网格化流水的全收集方法，包括以下步骤：S1、将每个超节点内的进程组织为一个分组，每个分组不必具备同样多的进程；S2、每个分组选出任意一个进程作为代表进程，参与到组间的通信中，由此构成二级网格化通信结构，并将二级网格化通信结构映射到大规模集群互联网络结构；S3、在所述二级网格化通信结构上，先在各组内完成数据的收集和共享，再开启全局流水。本发明能够合理利用资源，实现全收集集合通信中的通信聚合和顶层网络的带宽节省，有效提高了全收集集合通信的性能，对通信密集型应用具有积极影响。

2.

发明公开
一种异构众核架构上的矩阵转置方法审中-实审

公开(公告)号：CN114218523A

公开(公告)日：2022-03-22

申请号：CN202110483033.6

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 袁欣辉 , 林蓉芬 , 尹万旺 , 魏迪 , 孙浩男 , 孙强 , 史俊达 , 王飞

IPC: G06F17/16 , G06F9/30 , G06F15/16

Abstract: 本发明公开一种异构众核架构上的矩阵转置方法，针对大规模矩阵M*N，其中，M%8=0，N%8=0；包括以下步骤：S1、将大规模矩阵M*N以8×8粒度分块；S2、从核阵列共64个从核，利用混洗指令对该分块转置；转置运算前开始读入第k+64个分块进从核LDM，即该从核要处理的下一轮分块；S2.2、如果S2.1中读取的第p轮分块为原矩阵第i行第j列分块，则将其转置后的分块矩阵存储于新矩阵的第j行第i列分块；S2.3、当从核处理完毕第p轮分块；S3、当从核阵列处理完所有分块后，得到原矩阵的转置矩阵。本发明可以充分利用加速指令中的混洗指令进行向量化加速，突破了传统的矩阵转置算法，充分发挥硬件潜力。

3.

发明公开
一种异构众核架构上CPU共享数组引导维选取策略审中-实审

公开(公告)号：CN114218150A

公开(公告)日：2022-03-22

申请号：CN202110481454.5

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 尹万旺 , 袁欣辉 , 林蓉芬 , 魏迪 , 孙浩男 , 孙强 , 史俊达 , 王飞 , 郑岩

IPC: G06F15/167 , G06F9/50 , G06F13/28

Abstract: 本发明公开一种异构众核架构上CPU共享数组引导维选取策略，对矩阵引导维进行如下调整，并存储于CPU共享空间中：S1、申请CPU共享空间时，控制申请空间的首地址即src 128B对界，使得从核DMA取时源地址始终128B对界；S2选取ld=64*(6a+1)，a为满足64*(6a+1)>=N的最小整数值；S3、如果S2中取得的ld%31==0，取a=a+1，使得体冲突问题得到规避；S4、M×N双精度矩阵，行主序，以S3中取得的ld作为引导维，以src为首地址，存储在CPU共享空间中。本发明平衡从核DMA取数据时各个存控上的访存量，实现负载均衡，且规避存控体冲突。

4.

发明公开
一种计算核心加速的通信优化方法审中-实审

公开(公告)号：CN114218147A

公开(公告)日：2022-03-22

申请号：CN202110480202.0

申请日：2021-04-30

Applicant: 无锡江南计算技术研究所

Inventor： 何王全 , 魏迪 , 尹万旺 , 袁欣辉 , 孙浩男 , 林蓉芬 , 孙强 , 史俊达 , 王丹云

IPC: G06F15/163

Abstract: 本发明公开一种计算核心加速的通信优化方法，包括以下步骤：S1、控制核心通过检查运算核心的状态参数，感知运算核心是否处于空闲状态；S2、若运算核心处于空闲状态，则利用运算核心的聚合访存能力加速通信中的数据传输或者利用运算核心的计算能力加速通信中的数据计算，实现通信优化；若运算核心不空闲，则利用控制核心正常通信；S3、通信完毕，优化结束。本发明将通信协议的部分步骤卸载至运算核心阵列，利用运算核心来提升通信性能，实现通信支撑服务与异构体系结构的深度融合，以达到加速通信过程的目的。

5.

发明公开
一种通信支撑环境的初始化方法审中-实审

公开(公告)号：CN114217943A

公开(公告)日：2022-03-22

申请号：CN202110398330.0

申请日：2021-04-14

Applicant: 无锡江南计算技术研究所

Inventor： 魏迪 , 袁欣辉 , 尹万旺 , 王飞 , 林蓉芬 , 孙浩男 , 孙强 , 史俊达

IPC: G06F9/50

Abstract: 本发明公开一种通信支撑环境的初始化方法，包括以下步骤：S1、调用作业管理接口，解析本道作业的资源总数tasksize、各进程在作业中的初始资源序号Sid、资源名列表nodeidlist、资源片内唯一标识mpeidlist、pid列表pidlist、网络设备标识列表guidlist，并按资源列表自然序排列；S2、根据各进程的初始资源序号Sid计算Sid%cg_per_process，从作业系统返回信息中提取满足模cg_per_process为0的进程的相关信息。本发明有助于支撑用户求解更大的问题规模、追求更高的性能，且实现简便，不影响消息性能，用户调用消息接口时无额外开销。

6.

发明公开
一种异构众核上基于主-从模型的轻量级多线程机制有权

公开(公告)号：CN114217915A

公开(公告)日：2022-03-22

申请号：CN202110398335.3

申请日：2021-04-14

Applicant: 无锡江南计算技术研究所

Inventor： 袁欣辉 , 尹万旺 , 魏迪 , 林蓉芬 , 孙浩男 , 孙强 , 史俊达

IPC: G06F9/48 , G06F15/16

Abstract: 本发明公开一种异构众核上基于主‑从模型的轻量级多线程机制，设置四种线程状态，分别为初始化、等待任务、任务完成和线程退出；在共享内存上开辟长整形数组；在共享内存上开辟数组，用于线程组内主线程向从属线程传递参数；根据主线程及其从属线程核组号，设置每个线程组的掩码cgmask，掩码有CG_NUM位；使用共享模式运行并行程序，每个核组为一个进程；当需要退出线程状态时，主线程调用Master_leave接口；执行完毕后，各核组恢复进程状态，可以根据进程号继续执行任务。本发明为用户提供了方便使用、更加灵活、开销更低的片内多线程解决方案。

7.

发明公开
一种稠密卷积运算核心的低功耗方法审中-实审

公开(公告)号：CN114217686A

公开(公告)日：2022-03-22

申请号：CN202110453264.2

申请日：2021-04-26

Applicant: 无锡江南计算技术研究所

Inventor： 林蓉芬 , 袁欣辉 , 尹万旺 , 魏迪 , 王飞 , 孙浩男 , 孙强 , 史俊达

IPC: G06F1/3234 , G06F7/483 , G06F17/15

Abstract: 本发明公开一种稠密卷积运算核心的低功耗方法，包括以下步骤：S1、分析平台指令特点，得到指令流数据重用高的数据存储格式P；S2、判断卷积输入数据是否为P存储格式，如果是，则跳转到S3；S3、将输入数据整理成P存储格式；S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。本发明在不损失高功耗课题效率的同时，显著降低了对存储部件的数据访存频次，从而降低存储部件数据访问的功耗，进而显著降低高功耗课题的CPU运行功耗，缓解功耗墙难题、节约能耗。

8.

发明授权
面向大规模并发通信的优化方法有权

公开(公告)号：CN112532539B

公开(公告)日：2023-03-28

申请号：CN201910879920.8

申请日：2019-09-18

Applicant: 无锡江南计算技术研究所

Inventor： 魏迪 , 尹万旺 , 袁欣辉 , 林蓉芬 , 王丹云 , 杨金才

IPC: H04L47/629

Abstract: 本发明公开一种面向大规模并发通信的优化方法，包括以下步骤：S1、发送方向接收方发起发送请求，设置完成计数器初值；S2、接收方收到来自于发送方的发送请求后，匹配相关接收请求信息，向发送方应答目的地址信息；S3、发送方收到来自于接收方的请求应答后，投递拆分后的前n个传输请求；S4、如果探查到某一个传输请求完成，则将完成计数器的值减1，并判断当前完成计数器的值是否为0，如果为0，向发送方投递完成通知，否则，继续补充后续传输请求；S5、接收方收到来自于接收方的完成通知，置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题，可有效增强并发通信优化手段的灵活性，提升大规模并发通信性能。

9.

发明授权
一种低延迟旁路的消息优化方法有权

公开(公告)号：CN109117288B

公开(公告)日：2022-04-12

申请号：CN201810928707.7

申请日：2018-08-15

Applicant: 无锡江南计算技术研究所

Inventor： 魏迪 , 尹万旺 , 王丹云 , 袁欣辉 , 林蓉芬 , 杨金才

IPC: G06F9/54 , G06F3/06 , H04L69/22

Abstract: 本发明公开一种低延迟旁路的消息优化方法，该方法采用旁路方式，对于满足一定长度要求的用户消息请求，采用快速旁路方式处理，减少用户函数到底层消息操作的调用层次；同时，不在通信支撑环境中对用户消息数据以及包头进行组包操作，而是将这些信息直接写入网络接口芯片的短消息通路条目中，减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短消息通路，在降低硬件处理开销的同时，从软件层面尽量减少消息数据的启动和处理开销，有效降低短消息通信延迟。

10.

发明公开
一种异构众核架构上基于膨胀取数的卷积运算方法审中-实审

公开(公告)号：CN114218521A

公开(公告)日：2022-03-22

申请号：CN202110452546.0

申请日：2021-04-26

Applicant: 无锡江南计算技术研究所

Inventor： 袁欣辉 , 尹万旺 , 林蓉芬 , 魏迪 , 郑岩 , 王飞 , 孙浩男 , 孙强 , 史俊达 , 王丹云

IPC: G06F17/15 , G06F9/30 , G06F15/16

Abstract: 本发明公开一种异构众核架构上基于膨胀取数的卷积运算方法，包括以下步骤：S1、输入input、权重weight、跨步stride，其中input为Hi*Wi，weight为K*K，根据input和weight的形状计算输出output的形状，得到Ho*Wo；S2、根据output的形状，在Ho、Wo维度上，根据每个核的逻辑编号，将卷积计算任务平均分配给众核；S3、每个核根据自己任务大小；S4、每个核通过得到的input（Hi_BLOCK*Wo_BLOCK）和weight，进行卷积计算；S5、重复S3和S4，直到计算完毕。本发明节约了内存带宽资源，同时能够充分运用众核的计算资源。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification