-
公开(公告)号:CN119225804A
公开(公告)日:2024-12-31
申请号:CN202411435244.2
申请日:2024-10-15
Applicant: 无锡先进技术研究院
Abstract: 本发明公开一种移植数学计算库的方法、装置和存储介质,该方法包括:确定移植目标和被移植的数学计算库,搭建移植所需的开发环境;移植目标为接收被移植数学计算库的载体;对需要移植的数学计算库的源码分析源码结构、指令集支持情况、编译方法和测试用例;根据移植目标的架构特点和源码分析结果,对数学计算库进行架构移植;根据移植目标的指令集特点,对数学计算库进行优化;数学计算库优化包括编译优化和代码优化,编译优化通过调整编译约束降低编译过程的出错率,代码优化通过移植目标的指令集优化数学计算库;编译修改后的数学计算库源码。本发明能够解决移植数学计算库过程出错影响该数学计算库运算性能的问题。
-
公开(公告)号:CN117971766A
公开(公告)日:2024-05-03
申请号:CN202410148139.4
申请日:2024-02-01
Applicant: 无锡先进技术研究院
IPC: G06F15/173 , G06F9/50 , G06F9/48
Abstract: 本发明公开了一种基于GPUDrirect RDMA技术的单网卡多GPU的数据传输方法及系统,利用HCA支持多队列的特性和多核CPU具有并行性的优势,将4个GPU显存分别由4个逻辑核并行管理,实现4组逻辑核‑GPU通信队列。本发明将4路GPU API调用和CPU I/O传输操作解耦,允许CPU异步处理GPU I/O请求,4个GPU显存与HCA进行并行RDMA数据传输,而不需要在4个GPU与HCA之间来回切换RDMA通路。因此,GPU I/O调用返回更快,无需等待GPU I/O请求通过高延迟的PCIe总线传播,数据传输和GPU计算重叠。这样最小化了4个GPU到系统内存的访问,使得系统满足传输延迟低、节点资源利用率高、数据吞吐量高的要求,可以实现高性能的批量传输。
-
公开(公告)号:CN119383184A
公开(公告)日:2025-01-28
申请号:CN202411625893.9
申请日:2024-11-14
Applicant: 无锡先进技术研究院
IPC: H04L67/10 , H04L67/1097 , H04L41/0893 , H04L9/40
Abstract: 本发明公开了一种在Kubernetes集群内的跨节点RDMA高性能通信的方法,属于计算网络技术领域,所述方法包括:根据预先确定的Master服务器的个数和Node子节点的个数,搭建Kubernetes集群系统;根据目标CPU架构,使用RDMA Shared模式,暴露预先绑定在Master服务器和Node子节点上的物理网卡给Pod容器使用;在Kubernetes集群系统中部署Multus CNI插件,为Pod容器提供额外的网络接口;在Kubernetes集群系统的Master服务器和Node子节点中部署用于RDMA高速通信的ring‑pod插件;通过ring‑pod插件以及Multus插件提供的额外网络接口,启动RDMA的IB通信功能,通过物理网卡实现pod容器间的通信;本发明可以在集群中实现多通道的RDMA通信,打破了物理网卡数量的限制,降低了成本。
-
公开(公告)号:CN119357997A
公开(公告)日:2025-01-24
申请号:CN202411414183.1
申请日:2024-10-11
Applicant: 无锡先进技术研究院
Abstract: 本发明公开一种数据处理平台加密算法的优化方法、装置和存储介质,该方法,包括:分析数据处理平台、SIMD指令集和AES加密算法的特性,根据分析结果确定优化AES加密算法中的S盒查找;获取初始数据,预处理初始数据和S盒查找表;利用预处理的初始数据执行逻辑操作,建立预处理的初始数据与预处理后S盒查找表的对应关系;在对应关系中,对预处理的初始数据并行化查找S盒查找表中的替换字节,并将查找到的替换字节替换预处理的初始数据用于后续加密过程。本发明能够解决无法充分利用SIMD指令集的计算能力的问题。
-
公开(公告)号:CN119201734A
公开(公告)日:2024-12-27
申请号:CN202411350289.X
申请日:2024-09-26
Applicant: 无锡先进技术研究院
Abstract: 本发明公开了一种基于性能分析工具PyTorch Profiler的AMD兼容性扩展方法,属于人工智能性能分析技术领域,所述AMD兼容性扩展方法包括:根据性能分析需求,对性能分析工具PyTorch Profiler中的性能分析库Kineto进行功能扩展;对性能分析库Kineto中的扩展功能进行验证;响应于验证通过的性能分析工具PyTorch Profiler抓取到大模型程序性能数据,对大模型程序性能数据进行可视化分析验证;响应于可视化分析验证通过,完成性能分析工具PyTorch Profiler的AMD兼容性扩展,使性能分析工具PyTorch Profiler能够兼容AMD GPU的性能数据分析,也支持Tensorboard可视化,提高了AMD GPU上人工智能应用程序的优化效率,提升了用户体验。
-
公开(公告)号:CN115774556A
公开(公告)日:2023-03-10
申请号:CN202211434014.5
申请日:2022-11-16
Applicant: 无锡先进技术研究院
Abstract: 本发明公开了一种基于中间表示的循环优化模型的参数提取方法,包括如下步骤:遍历初始AST,初步筛选出AST循环模块,基于matcher类模板从AST循环模块中再次筛选出满足matcher类模板的AST模块,将二次筛选后的AST模块转换成Stmt类,判断Stmt类是否值得优化,将值得优化的Stmt类转换成PolyhedralBase类。利用该参数提取方法,可以从程序中更加准确更加完整地筛选提取满足优化条件的循环块,同时剔出了部分无效优化的情况,从而减少了程序的整体优化时间。
-
-
-
-
-