-
公开(公告)号:CN112446471A
公开(公告)日:2021-03-05
申请号:CN201910799257.0
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于异构众核处理器的卷积加速方法,包括以下步骤:S1、根据异构众核处理器的核数,确定输入特征图和卷积核的多核划分方法,实现众核并行加速,S2、各计算核心将划分后的数据通过DMA(直接存储器访问)的方式传输至片上存储器,实现片上存储加速,S3、将卷积操作核心计算过程中的标量计算操作优化为向量计算操作,实现SIMD指令加速,S4、结合异构众核处理器流水线特性,对卷积核心计算过程的指令流进行优化,以提高执行效率,实现指令并行加速。本发明对卷积操作进行加速,显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。
-
公开(公告)号:CN112445768A
公开(公告)日:2021-03-05
申请号:CN201910794731.0
申请日:2019-08-27
Applicant: 无锡江南计算技术研究所
IPC: G06F16/172 , G06F16/182
Abstract: 本发明公开一种面向超大规模系统的多文件系统元数据统一缓存管理方法,基于以下模块:若干个分布式文件系统,分别配置于分布式文件系统环境中IO节点上的驻留收集模块,用于监测文件系统元数据信息的变化,并将获取的元数据信息传输至后台数据库;后台数据库,用于接收和存储来自驻留收集模块的元数据信息;配置于管理节点上的总控处理模块,用于查询后台数据库,获取元数据的信息,并通过元数据信息的变更来检索和查找、定位的文件数据;本发明可以针对不同分布式文件系统来实现元数据的收集与管理,更方便的通过元数据的信息来有效地监控文件系统的运行状况。
-
公开(公告)号:CN112445660A
公开(公告)日:2021-03-05
申请号:CN201910801001.9
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
IPC: G06F11/22
Abstract: 本发明公开一种针对共享存储阵列性能均衡性问题的测试方法,基于以下模块:控制模块,用于配置均衡性测试端、均衡性测试分区、均衡性测试目录,还用于生成并发送均衡性测试场景命令、均衡性测试命令,还用于收集与汇总均衡性测试结果;测试模块,用于接收管理端的命令并执行,如生成均衡性测试场景,进行指定线程数、指定文件大小、指定块大小、指定顺序写/读、指定随机写/读的均衡性测试,记录并返回均衡性测试结果至控制模块。本发明既可准确测试判断存储设备在面向多个服务器时是否存在性能均衡性问题,也可以判断单一服务器上多个不同的LUN之间是否存在性能均衡性问题。
-
公开(公告)号:CN112445528A
公开(公告)日:2021-03-05
申请号:CN201910805780.X
申请日:2019-08-29
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于流水线约束的结果自校验指令序列填充方法,包括以下步骤:S1、对指令集合进行信息提取;S2、循环读取下一条指令;S3、对指令进行格式解析,S4、解析当前读取的指令,选择不在当前指令将要执行的流水线上且执行延迟为1拍的N‑1条指令;S5、随机选择满足条件的指令编号,创建CNF范式;S6、约束求解;S7、如果求解结果不满足,继续S5重新选择下一指令进行约束求解,否则继续下一步;S8、对求解结果进行解析,形成完整指令,并填充到当前指令序列末尾;S9、N‑1条指令已经全部生成则跳转至S3,否则跳转至S5继续。本发明既满足压力测试又能够对结果进行正确性校验,保证在设计阶段既能够对功耗进行测试也能够对正确性进行测试,避免测试盲区,还具有很好的适用性。
-
公开(公告)号:CN112445482A
公开(公告)日:2021-03-05
申请号:CN201910794946.2
申请日:2019-08-27
Applicant: 无锡江南计算技术研究所
IPC: G06F8/41
Abstract: 本发明公开一种面向容量受限的程序栈空间深度追溯方法,包括以下步骤:S1、在链接器中建立函数信息的数据结构,形成函数调用关系流程图;S2、获取所有的函数符号信息,建立相应的函数信息数据结构,并将函数的名称、PC值范围、自身栈空间深度信息安装到对应的函数信息结构中;S3、遍历程序所有的重定位信息,根据重定位信息来确定函数调用关系,根据分析结果更新各个函数信息的链表指针;S4、对建立的函数调用关系图做深度优先遍历,通过累加计算获取根节点函数的栈空间深度,对所有根节点栈空间深度做排序后输出。本发明通过静态分析的方法获取栈空间信息,无需重新编译,无需运行插桩,对于程序分析、错误定位以及程序优化有着很好的指导作用。
-
公开(公告)号:CN112445465A
公开(公告)日:2021-03-05
申请号:CN201910799245.8
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于C代码生成的神经网络模型推理和训练方法,包括以下步骤:S1、以通过各种AI编程框架开发的模型作为输入,AI框架编译器识别各种模型格式并转化为统一的计算图,将输入的模型转化为底层IR;S2、将S1中生成的计算图输入C代码生成模块,输出总控函数;S3、C代码生成模块针对不同的底层IR,生成对应的C代码;S4、将生成的总控函数、各IR对应的C代码以及C‑基础算子库,输入到支持C语言和相应硬件平台的基础编译器,通过基础编译器的优化过程转化为运行程序,并在对应硬件平台上执行推理过程、训练过程。本发明实现了AI框架编译器在LLVM不支持的硬件平台上的快速移植,能够快速实现神经网络模型在LLVM不支持的特定硬件平台上的训练和推理过程。
-
公开(公告)号:CN112445154A
公开(公告)日:2021-03-05
申请号:CN201910794749.0
申请日:2019-08-27
Applicant: 无锡江南计算技术研究所
IPC: G05B19/042
Abstract: 本发明公开一种异构众核处理器温度报警的多级处理方法,包括以下步骤:处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;当监测系统接收到的温度信息的数值高于设定的温度阈值时,发出报警信息,并对出现预警的处理器节点的主核和从核进行降频降压操作,并在降频降压操作过程中跟踪记录相应处理器节点的温度信息;在设定的时间区间内,比较处理器节点的温度信息和设定的温度阈值,如果处理器节点的温度信息的数值低于设定的温度阈值,则将处理器恢复至正常运行状态,否则,执行下一步。本发明采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。
-
公开(公告)号:CN112433980A
公开(公告)日:2021-03-02
申请号:CN201910788875.5
申请日:2019-08-26
Applicant: 无锡江南计算技术研究所
IPC: G06F15/173
Abstract: 本发明公开一种基于迭代逼近的RDMA缓冲区动态分配方法,包括以下步骤:S1、初始化时,RDMA发起方做以下设置:将请求分配的缓冲区数量记为rbuf_thresh,初始值设为4,rbuf_thresh扩张时的时间记为epoch_start,初始值设为当前时间,rbuf_thresh扩张前的rbuf_thresh记为Rmin,初始值设为2,rbuf_thresh扩张后的rbuf_thresh记为Rmax,初始值设为4,rbuf_thresh扩张后Rmax减少到Rmin的时间记为K,初始化为K= ,其中C是一个常数系数;S2、RDMA发起方检查本地保存的RDMA缓冲区列表,判断RDMA被动方是否有可用的RDMA缓冲区;S3、RDMA被动方收到RDMA主动方发来的分配RDMA缓冲区请求后,根据该请求中的rbuf_thresh分配新的RDMA缓冲区,并通告给RDMA主动方。本发明实现了对RDMA缓冲区的动态分配,在保证网络高带宽的同时,可以显著降低预先分配的RDMA缓冲区数量,降低内存消耗量。
-
公开(公告)号:CN112433931A
公开(公告)日:2021-03-02
申请号:CN201910789088.2
申请日:2019-08-26
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于指数约束的浮点验证数据生成方法,包括以下步骤:S1、将浮点数据分解成符号位sign、指数部分exponent、尾数部分significand;S2、分别构建符号位、指数部分、尾数部分对应的位向量节点;S3、将S2中的三个位向量节点拼接成64位长度的位向量节点;S4、建立S3中获得的64位向量与双精度浮点数据在数据存储上的等价关系约束;S5、构建浮点运算的另一个浮点操作数;S6、构建指数之间的约束关系,S7、构建合成CNF范式;S8、以S7中得到的CNF范式作为输入,采用第三方求解器进行求解,S9、对S8中的求解结果进行解析,形成一组浮点验证元组数据。本发明解决了浮点运算由于各个操作数之间约束建模的复杂性导致验证人员无法对浮点运算的指数进行约束的问题,提高了浮点测试的覆盖率和测试效率。
-
公开(公告)号:CN112433829A
公开(公告)日:2021-03-02
申请号:CN201910788892.9
申请日:2019-08-26
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种以用户为核心的高性能计算机资源管理方法,基于以下模块:用户队列模块,包含所有使用高性能计算机系统的用户,每个用户可以使用1~2个有限队列资源;计算队列模块,可包含高性能计算机系统中所有的计算节点,且每个计算节点只能加入到一个计算队列;计算节点队列模块,将计算节点按照该节点的网络地址进行编号;资源管理系统,当用户队列模块中的用户向计算队列模块中的计算队列提交作业时,用于判断该用户下面是否包含有该队列。本发明解决了大型超算中心计算资源管理低效问题,提高高性能计算机系统计算资源的管理和服务能力。
-
-
-
-
-
-
-
-
-