面向部分参数为常量的深度学习模型的编译优化方法

    公开(公告)号:CN119336334A

    公开(公告)日:2025-01-21

    申请号:CN202411326066.X

    申请日:2024-09-23

    Inventor: 张昱 刘硕

    Abstract: 本发明涉及深度学习技术领域,公开了一种面向部分参数为常量的深度学习模型的编译优化方法;本发明解决了传统编译技术中难以充分利用张量形状API信息进行常量优化的问题。通过外部类型推断和常量化替换,本发明能够准确识别和优化常量参数,优化后的tiling参数被嵌入到核函数中,解决了运行时不必要的计算开销问题,最终达到了提升核函数执行效率的效果。本发明通过常量传播、死代码删除和公共子表达式优化等优化步骤,有效减少了冗余计算和无用代码,解决了核函数执行效率低下的问题,最终达到了加速深度学习模型推理过程的效果。

    面向部分参数为常量的深度学习模型的编译优化方法

    公开(公告)号:CN119336334B

    公开(公告)日:2025-04-04

    申请号:CN202411326066.X

    申请日:2024-09-23

    Inventor: 张昱 刘硕

    Abstract: 本发明涉及深度学习技术领域,公开了一种面向部分参数为常量的深度学习模型的编译优化方法;本发明解决了传统编译技术中难以充分利用张量形状API信息进行常量优化的问题。通过外部类型推断和常量化替换,本发明能够准确识别和优化常量参数,优化后的tiling参数被嵌入到核函数中,解决了运行时不必要的计算开销问题,最终达到了提升核函数执行效率的效果。本发明通过常量传播、死代码删除和公共子表达式优化等优化步骤,有效减少了冗余计算和无用代码,解决了核函数执行效率低下的问题,最终达到了加速深度学习模型推理过程的效果。

    一种面向深度学习模型部署的GPU性能评测方法

    公开(公告)号:CN116010224A

    公开(公告)日:2023-04-25

    申请号:CN202211324471.9

    申请日:2022-10-27

    Inventor: 张昱 刘硕 万嘉诚

    Abstract: 本发明涉及GPU性能评测领域,公开了一种面向深度学习模型部署的GPU性能评测方法,本发明提出了T‑Profiler框架,引入两阶段解析技术,即“核函数类别解析”和“核函数聚合解析”,可以半自动地获取模型在部署后的多层次性能;通过两阶段的设计,可以适配多种深度学习编译器和多种目标硬件的评测工具;经实验表明,T‑Profiler框架相较于原有的评测系统,可以低代码适配多种应用场景,实现对被测模型性能瓶颈和模块性能的快速统计分析。

Patent Agency Ranking