-
公开(公告)号:CN112559435A
公开(公告)日:2021-03-26
申请号:CN201910918612.1
申请日:2019-09-26
Applicant: 无锡江南计算技术研究所
IPC: G06F15/173
Abstract: 本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法,包括以下步骤:S1、根据三维数组的最高维对每个从核的任务进行划分,利用异构众核访存接口实现数据的快速传输;S2、利用片上加速接口对矩阵进行分块,通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块,利用异构众核架构对分块进行并行加速,实现高效的数组转置,适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件,极大的提高程序整体性能。
-
公开(公告)号:CN112558976A
公开(公告)日:2021-03-26
申请号:CN201910903889.7
申请日:2019-09-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种即时编译引擎自适应函数加载方法,面向异构众核平台,包括以下步骤:S1、对于一个函数符号,执行引擎检查其是否为外部函数;S2、对于一个S1中标记的外部函数符号,执行引擎检查其是否为从核函数,并使用对应的动态链接库加载函数加载包含该外部函数符号的动态链接库;S3、从步骤S2中加载的动态链接库中获取外部函数入口地址;S4、使用步骤S3中获取的外部函数入口地址,对用户程序代码段进行GOT表覆写和重定位回填。本发明实现了异构众核程序对核组空间的有效利用,完善了面向异构众核平台的即时编译引擎的功能。
-
公开(公告)号:CN112558858A
公开(公告)日:2021-03-26
申请号:CN201910852999.5
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
IPC: G06F3/06
Abstract: 本发明公开一种基于动态IO感知的超大规模应用外存访问特征获取方法,包括以下步骤:在应用程序中,调用数据操作请求;将数据操作请求中所有的IO调用请求,通过虚拟文件系统模块提交到用户空间文件系统;用户空间文件系统将接收到的IO调用请求投递到用户空间,IO负载监控模块对IO调用请求进行解析,获得此IO调用请求的目标操作地址,并判断该目标操作地址是否位于应用程序所操作的目录下;客户端将IO调用请求传送到服务端;IO负载监控模块收集并记录在课题从开始到结束完整周期内的IO操作信息。本发明采用与目录相关的采集数据集,与应用的代码开发无关,不影响应用的运行,不影响操作系统内核的稳定运行,可缩短应用的运行时间,提高高性能计算机的运行效率。
-
公开(公告)号:CN110704354B
公开(公告)日:2021-03-26
申请号:CN201910870858.6
申请日:2019-09-16
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种I2C通信总线的共模噪声抑制方法和总线网络,方法包括:设置I2C总线包括数据线、数据线信号地、时钟线以及时钟线信号地;在每个参与I2C通信的设备的SDA引脚与I2C总线的数据线和数据线信号地之间增加第一共模滤波器,在每个参与I2C通信的设备的SCL引脚与I2C总线的时钟线和时钟线信号地之间增加第二共模滤波器,所述设备包括主机和从机。本发明能够提高抗干扰能力,端口处波形完整、质量高,且通信距离长、允许多次跨电路板传输。
-
公开(公告)号:CN109067752B
公开(公告)日:2021-03-26
申请号:CN201810928706.2
申请日:2018-08-15
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种利用RDMA消息实现兼容TCP/IP协议的方法,该方法利用RDMA消息传输IP数据报文,实现对TCP/IP协议的兼容,可以获得比传统的利用Send/Recv传输IP报文更高的消息性能。本发明通过rdmabuf通告及补充机制,预先分配rdmabuf,以降低消息延迟;通过rdmabuf失效方法,在发送端可以避免使用无效的rdmabuf,在接收端可以节省内存消耗;采用rdmabuf池机制,预先分配rdmabuf,提高rdmabuf的使用效率。
-
公开(公告)号:CN112540936A
公开(公告)日:2021-03-23
申请号:CN201910898087.1
申请日:2019-09-23
Applicant: 无锡江南计算技术研究所
IPC: G06F12/0877 , G06F13/16
Abstract: 本发明公开一种面向异构众核架构的离散访存读写方法,包括以下步骤:S1、将众核组共同组成一个存储块,将参与计算的物理量均匀分布在各计算核心的私有存储空间中,并通过建立索引关系可找到不同下标计算时数组的具体位置,再利用核间通信机制实现核间数据的访问;S2、利用步骤S1的映射同时结合非阻塞通信来批量获取数据,并将重排好的数据存入本地私有高速缓冲区中;S3、将步骤S1以预处理方式独立于计算之外,并根据课题需求可使用主从异步并行方式,继续隐藏建立映射过程带来的额外开销。本发明面向异构众核架构的离散访存读写方法,其利用分布式存储技术及其映射机制与高效非阻塞批处理数据重排方法,有效避免频繁的访主存,提高众核并行效率。
-
公开(公告)号:CN112532539A
公开(公告)日:2021-03-19
申请号:CN201910879920.8
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: H04L12/867
Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。
-
公开(公告)号:CN112532410A
公开(公告)日:2021-03-19
申请号:CN201910879822.4
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: H04L12/24 , H04L12/935
Abstract: 本发明公开了一种大规模互连网络Trap快速响应方法,包括以下步骤:网络管理接收Trap消息,判断状态改变的端口所连接的节点类型是否为网卡,如果是,执行下一步,否则重新探查网络;判断端口变化情况,如果端口由可用变为不可用,不需要响应该Trap消息,维持当前状态不变,如果端口由不可用变为可用,继续执行下一步;判断端口软件可用位是否为可用,如果是,激活该网卡,使其变为可用,否则重新探查网络。本发明优化了网卡端口状态发生改变的处理过程,只有当网卡端口由不可用变为可用,且与其相连的交换机端口的软件可用位也不可用时,才启动探查网络,节省了不必要的网络探查时间,大大提高了网络管理的响应速度。
-
公开(公告)号:CN112527394A
公开(公告)日:2021-03-19
申请号:CN201910879931.6
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于指令序列与消息序列指引的深度依赖问题并行方法,包括以下步骤:S1、将解向量按块进行平均划分,通过这种划分将解向量中各元素之间的依赖性转换成向量块之间的依赖性;S2、将一个向量块完成计算称为一次更新操作,此一次更新操作需要以下三个步骤:S21、部分更新:接收前继块发送的数据;S22、自我更新:对块内元素进行计算更新;S23、完成更新:将本向量块求解完毕的元素发送给所依赖的后继块;S3、众核内每个计算核心按顺序计算相应的向量块,重复S2的更新操作步骤,实现了整个流水线作业计算;S4、为每个计算核心设计一串指令流,即指令序列。本发明提高众核内部通信的相互协作性,减少访存时间开销,实现有效加速。
-
公开(公告)号:CN112527393A
公开(公告)日:2021-03-19
申请号:CN201910879804.6
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: G06F9/38
Abstract: 本发明公开一种面向主从融合架构处理器的指令调度优化装置和方法,基于以下模块:指令调度模块,用于接收含有目标机信息和指令序列的代码,还用于根据指令模板选择器提供的指令模板,对接收到的指令序列进行调度;指令模板选择器,用于接收代码中的目标机信息,并根据目标机信息,选择主核指令模板或者从核指令模板,将选择好的指令模板发送给指令调度模块;主核指令模板,用于描述主核指令的指令类型、指令的目标信息、可以在哪条流水线上执行该指令以及指令延迟信息;配置于编译器后端的从核指令模板。本发明进一步降低流水线阻塞发生的概率,优化处理器的指令调度过程,提高指令调度的准确性以及指令调度的性能指标,实现指令调度过程的优化。
-
-
-
-
-
-
-
-
-