一种基于GEMM的深度神经网络加速方法和系统

    公开(公告)号:CN114722999B

    公开(公告)日:2025-02-07

    申请号:CN202210245988.2

    申请日:2022-03-14

    Abstract: 本发明属于GEMM运算加速技术领域,为一种基于GEMM的深度神经网络加速方法和系统,该方法包括步骤:首先判断输入的矩阵乘法为规则矩阵乘法或不规则矩阵乘法;对于不同类型矩阵乘法采取不同分片方式:若为规则矩阵乘法,则遍历预制定分片策略选择最佳策略,若为不规则矩阵乘法,则首先根据预先制定的策略生成分片策略然后再进行策略选择;在选择分片策略时以Kernel Occupancy为依据;按照所选分片策略对矩阵进行分片;对矩阵片进行计算并合并计算结果。本发明通过GEMM利用两种不同的动态分片方式和KernelOccupancy,提高分片尺寸的适配度以减少不必要的内存加载次数同时提高CU的占有率。

    一种基于GEMM的深度神经网络加速方法和系统

    公开(公告)号:CN114722999A

    公开(公告)日:2022-07-08

    申请号:CN202210245988.2

    申请日:2022-03-14

    Abstract: 本发明属于GEMM运算加速技术领域,为一种基于GEMM的深度神经网络加速方法和系统,该方法包括步骤:首先判断输入的矩阵乘法为规则矩阵乘法或不规则矩阵乘法;对于不同类型矩阵乘法采取不同分片方式:若为规则矩阵乘法,则遍历预制定分片策略选择最佳策略,若为不规则矩阵乘法,则首先根据预先制定的策略生成分片策略然后再进行策略选择;在选择分片策略时以Kernel Occupancy为依据;按照所选分片策略对矩阵进行分片;对矩阵片进行计算并合并计算结果。本发明通过GEMM利用两种不同的动态分片方式和KernelOccupancy,提高分片尺寸的适配度以减少不必要的内存加载次数同时提高CU的占有率。

    一种基于计算图的模型执行计划优化方法和设备

    公开(公告)号:CN117435315A

    公开(公告)日:2024-01-23

    申请号:CN202311274075.4

    申请日:2023-09-28

    Abstract: 本发明属于计算机深度学习领域,为一种基于计算图的模型执行计划优化方法和设备,该方法包括步骤:S1、获取用户提交的深度学习模型训练任务,将该深度学习模型转换为计算图;S2、将该深度学习模型的执行计划优化任务转换为一个整数线性约束问题进行求解;若求解任务在用户指定时间内完成则直接输出优化后的执行序,否则进入步骤S3;S3、使用张量生命周期感知的宽度优先算法和链路显存感知的深度优先算法分别对输入的计算图进行执行计划的优化;S4、对显存峰值小的执行序微调优化,输出优化后的执行序。本发明通过可以避免图规模过大时整数线性约束求解方案无法在有效时间内提供可行解的情况,以低开销的方式减少模型的显存需求。

Patent Agency Ranking