-
公开(公告)号:CN112532539A
公开(公告)日:2021-03-19
申请号:CN201910879920.8
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: H04L12/867
Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。
-
公开(公告)号:CN106933777B
公开(公告)日:2019-03-19
申请号:CN201710150446.6
申请日:2017-03-14
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
IPC: G06F17/14
Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。
-
公开(公告)号:CN106933777A
公开(公告)日:2017-07-07
申请号:CN201710150446.6
申请日:2017-03-14
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
IPC: G06F17/14
CPC classification number: G06F17/142
Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。
-
公开(公告)号:CN114217915B
公开(公告)日:2025-01-10
申请号:CN202110398335.3
申请日:2021-04-14
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种异构众核上基于主‑从模型的轻量级多线程处理方法,设置四种线程状态,分别为初始化、等待任务、任务完成和线程退出;在共享内存上开辟长整形数组;在共享内存上开辟数组,用于线程组内主线程向从属线程传递参数;根据主线程及其从属线程核组号,设置每个线程组的掩码cgmask,掩码有CG_NUM位;使用共享模式运行并行程序,每个核组为一个进程;当需要退出线程状态时,主线程调用Master_leave接口;执行完毕后,各核组恢复进程状态,可以根据进程号继续执行任务。本发明为用户提供了方便使用、更加灵活、开销更低的片内多线程解决方案。
-
公开(公告)号:CN114217940A
公开(公告)日:2022-03-22
申请号:CN202110381658.1
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于任务循环划分策略的负载平衡方法,包括以下步骤:S1、根据任务实际需求和线程的任务处理能力,将任务池中的每个任务划分为线程们可高效并行处理的若干子任务;S2、对S1中得到若干子任务编号,将任务池中的任务编号为taskid,每个任务划分后子任务编号为jobid,则每个子任务有唯一编号,记线程个数为n;S3、依次处理每个任务,根据S2中编号,将编号为(taskid,jobid)的子任务分配给第(jobid%n+taskid)%n个线程。本发明可以在异构众核处理器上多线程并行处理任务时,从整体上均衡各线程的任务负载,提升计算效率与系统稳定性。
-
公开(公告)号:CN107168683B
公开(公告)日:2020-06-09
申请号:CN201710310445.3
申请日:2017-05-05
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
Abstract: 本发明公开了申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法,针对申威众核处理器26010,并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性,优化矩阵分块与核间数据映射方法,设计了自顶向下的三级分块并行块矩阵乘算法,基于寄存器级通信机制设计从核计算资源数据共享方法,并利用主从核间异步DMA数据传输机制,设计了计算与访存重叠的双缓冲策略,在单个从核上,设计了循环展开策略与软件流水线排布方法,使用了高效的寄存器分块模式以及SIMD向量化乘加指令,实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比,平均加速比为227.94,最高加速比为296.93。
-
公开(公告)号:CN105468567B
公开(公告)日:2018-02-06
申请号:CN201510830202.3
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F15/167
Abstract: 本发明提供了一种异构众核离散访存优化方法,包括:第一步骤:将总任务划分为多个任务片段;第二步骤:在主核与从核均可访问的存储空间设立一个计数变量;第三步骤:判断计数变量的值是否小于总任务的片段数,如果判定计数变量的值小于总任务的片段数则执行第四步骤;第四步骤:主核和每个从核动态从任务池中取出任务片段,对计数变量做原子加1操作,并针对取出的任务片段完成访存操作;随后处理返回第三步骤。
-
公开(公告)号:CN105468567A
公开(公告)日:2016-04-06
申请号:CN201510830202.3
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F15/167
CPC classification number: G06F15/167
Abstract: 本发明提供了一种异构众核离散访存优化方法,包括:第一步骤:将总任务划分为多个任务片段;第二步骤:在主核与从核均可访问的存储空间设立一个计数变量;第三步骤:判断计数变量的值是否小于总任务的片段数,如果判定计数变量的值小于总任务的片段数则执行第四步骤;第四步骤:主核和每个从核动态从任务池中取出任务片段,对计数变量做原子加1操作,并针对取出的任务片段完成访存操作;随后处理返回第三步骤。
-
公开(公告)号:CN114217939B
公开(公告)日:2025-05-16
申请号:CN202110381609.8
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种异步通信优化方法,S1、判断物理资源是否满足大于等于用户程序所需进程数2倍的条件;S2、为用户程序的各个进程间隔分配控制核心作为进程控制核心,并在每个用户进程之间启用一个空闲的控制核心作为专用控制核心,所述进程控制核心与所述专用控制核心组成与用户进程一一对应的异步控制核心;S3、实现单个进程控制核心与多个运算核心阵列的逻辑组合;S6、当位于进程控制核心的用户程序进程(主线程)进行与位于专用控制核心的通信探查服务关键互斥操作时,对线程信号量置1,以主动抢锁并进行关键互斥操作,抢锁成功后信号量置0,允许通信探查服务继续竞争线程锁。本发明可有效提升通信密集型大规模并发应用的整体性能。
-
公开(公告)号:CN117313885A
公开(公告)日:2023-12-29
申请号:CN202311405211.9
申请日:2023-10-27
Applicant: 无锡江南计算技术研究所
Abstract: 本申请涉及一种基于量子光滑性测试的经典与量子混合整数分解方法,该方法包括:获取信息安全计算时待因子分解的目标整数,根据平方同余类整数分解算法的要求确定目标整数对应的多个候选关系,候选关系的数量超过预设阈值;分别对每个候选关系进行光滑性判断,在满足预设的量子范数整数分解条件或量子余因子整数分解条件的情况下,对当前候选关系对应的范数进行量子整数分解,并根据分解结果判断当前候选关系是否为真关系,在当前候选关系为真关系的情况下,将当前候选关系作为目标关系;根据目标关系对目标整数进行分解。本申请采用上述方法,有助于提升确定真关系的效率,进而提升后续完成目标整数分解的效率。
-
-
-
-
-
-
-
-
-