-
公开(公告)号:CN112448898A
公开(公告)日:2021-03-05
申请号:CN201910799268.9
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
IPC: H04L12/863
Abstract: 本发明公开一种基于序列号机制的消息保序方法,包括以下步骤:S1、每进行一次异步消息发送操作时,发送端将当前的发送序列号打包入包头,并将发送序列号加1;S2、接收端每成功接收一次异步消息,将当前的接收序列号和包头中携带的发送序列号进行比对;S3、成功处理按序到达的消息请求后,将接收端的消息序列号生成器的值加1,并对乱序到达队列内的元素查找是否有匹配当前接收序列号的元素;S4、如果认定为一次异步消息的乱序到达,将该次接收完成的消息缓冲区加入乱序到达队列,待后续消息到达并更新接收序列号后进行处理。本发明既可以有效保证通信通路的并发,也可以有效解决底层互连架构带来的消息序问题,同时序列号生成及匹配对于性能的影响非常小。
-
公开(公告)号:CN107273094B
公开(公告)日:2020-06-16
申请号:CN201710353362.2
申请日:2017-05-18
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法,基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要,使用了改进ELL格式的数据结构对原始数据结构进行替换,除了包含矩阵数据本身的数据结构,还支持分块着色,索引转换,进程通信,以及向量位置映射等相关的数据结构,并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行,最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中,相应的性能和带宽百分比取得了一致性的加速比,最高分别为18.2和17.6。
-
公开(公告)号:CN109101349A
公开(公告)日:2018-12-28
申请号:CN201810928724.0
申请日:2018-08-15
Applicant: 无锡江南计算技术研究所
IPC: G06F9/54
Abstract: 本发明公开一种动静结合的多策略通信支撑方法,包括:将全局进程组按照设定的分块大小划分全连接区;初始化过程中,在全连接区内每个进程均建立和其他进程间的通信通路,全连接区之间按照对应进程关系建立通信通路,建立虚拟连接时静态分配发送队列和接收队列资源;初始化结束后,程序执行过程中,当出现跨区域无连接进程间通信时,采用动态转发或本地计算方式传递请求并交换队列信息,建立通信通路。本发明采用静态分区和动态转发相结合的通信通路管理策略,在提升通信支撑环境可扩展性的同时,避免了连接管理线程对用户进程产生的不良影响;分层次的集合通信实现可以有效支撑复杂的集合通信需求,提升了集合通信的可扩展性。
-
公开(公告)号:CN105282017B
公开(公告)日:2018-07-06
申请号:CN201510831796.X
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明提供了一种基于扁平化模型的通信实现方法,可用于点对点通信和集合通信。所述方法包括:运算核心将用户消息的描述符在内存中进行组装;所述运算核心通过写内存方式,将描述符地址信息作为消息请求通知给控制核心;所述控制核心通过创建轮询线程的方式,查询运算核心的消息请求,通过消息请求中携带的描述符地址信息,取出描述符进行消息匹配;所述控制核心利用消息匹配的结果与远程控制核心进行消息通信。
-
公开(公告)号:CN107273094A
公开(公告)日:2017-10-20
申请号:CN201710353362.2
申请日:2017-05-18
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
Abstract: 本发明公开了一种适应于“神威·太湖之光”上HPCG优化的数据结构及其高效实现方法,基于“神威·太湖之光”上的申威众核处理器体系结构特征和HPCG算法优化的需要,使用了改进ELL格式的数据结构对原始数据结构进行替换,除了包含矩阵数据本身的数据结构,还支持分块着色,索引转换,进程通信,以及向量位置映射等相关的数据结构,并且中间处理过程采用了申威众核平台提供的Athread多线程库进行并行,最终应用于HPCG算法的核心函数SpMV和SymGS优化过程中,相应的性能和带宽百分比取得了一致性的加速比,最高分别为18.2和17.6。
-
公开(公告)号:CN105391658A
公开(公告)日:2016-03-09
申请号:CN201510830368.5
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: H04L12/933 , H04L12/947
CPC classification number: H04L49/109 , H04L49/25
Abstract: 本发明提供了一种基于物理位置感知的集合通信方法,包括:感知目的进程的位置;在目的进程和位于同一物理芯片内时,通过查询确定本地运算核心是否空闲;在本地运算核心空闲的情况下,通过本地运算核心发起存储器直接访问操作,将通信数据直接写入所述同一物理芯片上的目的进程主存中,以使得所述同一物理芯片内的通信不需要再通过网络接口进行中转。本发明进行大规模集合通信时,通过感知目的进程的位置,结合路由芯片路由算法,根据无端口冲突原则,使得通信间的路由冲突最小化。
-
公开(公告)号:CN101452379B
公开(公告)日:2012-05-23
申请号:CN200710094330.1
申请日:2007-11-28
Applicant: 无锡江南计算技术研究所
Abstract: 一种内存空间的分析方法和装置、检查点的保留方法和装置,所述内存空间的分析方法包括下述步骤:在程序中设置潜在检查点,所述潜在检查点为分析内存空间的指示;在潜在检查点的作用范围内,分析是否有不需要保留的内存空间;若有不需要保留的内存空间,则标识所述内存空间不需要保留的属性的作用域。所述内存空间的分析方法和检查点的保留方法可以减少透明检查点的保留量和缩短保留恢复时间。
-
公开(公告)号:CN114217915B
公开(公告)日:2025-01-10
申请号:CN202110398335.3
申请日:2021-04-14
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种异构众核上基于主‑从模型的轻量级多线程处理方法,设置四种线程状态,分别为初始化、等待任务、任务完成和线程退出;在共享内存上开辟长整形数组;在共享内存上开辟数组,用于线程组内主线程向从属线程传递参数;根据主线程及其从属线程核组号,设置每个线程组的掩码cgmask,掩码有CG_NUM位;使用共享模式运行并行程序,每个核组为一个进程;当需要退出线程状态时,主线程调用Master_leave接口;执行完毕后,各核组恢复进程状态,可以根据进程号继续执行任务。本发明为用户提供了方便使用、更加灵活、开销更低的片内多线程解决方案。
-
公开(公告)号:CN114217940A
公开(公告)日:2022-03-22
申请号:CN202110381658.1
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于任务循环划分策略的负载平衡方法,包括以下步骤:S1、根据任务实际需求和线程的任务处理能力,将任务池中的每个任务划分为线程们可高效并行处理的若干子任务;S2、对S1中得到若干子任务编号,将任务池中的任务编号为taskid,每个任务划分后子任务编号为jobid,则每个子任务有唯一编号,记线程个数为n;S3、依次处理每个任务,根据S2中编号,将编号为(taskid,jobid)的子任务分配给第(jobid%n+taskid)%n个线程。本发明可以在异构众核处理器上多线程并行处理任务时,从整体上均衡各线程的任务负载,提升计算效率与系统稳定性。
-
公开(公告)号:CN107168683B
公开(公告)日:2020-06-09
申请号:CN201710310445.3
申请日:2017-05-05
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
Abstract: 本发明公开了申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法,针对申威众核处理器26010,并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性,优化矩阵分块与核间数据映射方法,设计了自顶向下的三级分块并行块矩阵乘算法,基于寄存器级通信机制设计从核计算资源数据共享方法,并利用主从核间异步DMA数据传输机制,设计了计算与访存重叠的双缓冲策略,在单个从核上,设计了循环展开策略与软件流水线排布方法,使用了高效的寄存器分块模式以及SIMD向量化乘加指令,实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比,平均加速比为227.94,最高加速比为296.93。
-
-
-
-
-
-
-
-
-