-
公开(公告)号:CN119336334A
公开(公告)日:2025-01-21
申请号:CN202411326066.X
申请日:2024-09-23
Applicant: 中国科学技术大学
Abstract: 本发明涉及深度学习技术领域,公开了一种面向部分参数为常量的深度学习模型的编译优化方法;本发明解决了传统编译技术中难以充分利用张量形状API信息进行常量优化的问题。通过外部类型推断和常量化替换,本发明能够准确识别和优化常量参数,优化后的tiling参数被嵌入到核函数中,解决了运行时不必要的计算开销问题,最终达到了提升核函数执行效率的效果。本发明通过常量传播、死代码删除和公共子表达式优化等优化步骤,有效减少了冗余计算和无用代码,解决了核函数执行效率低下的问题,最终达到了加速深度学习模型推理过程的效果。
-
公开(公告)号:CN119336334B
公开(公告)日:2025-04-04
申请号:CN202411326066.X
申请日:2024-09-23
Applicant: 中国科学技术大学
Abstract: 本发明涉及深度学习技术领域,公开了一种面向部分参数为常量的深度学习模型的编译优化方法;本发明解决了传统编译技术中难以充分利用张量形状API信息进行常量优化的问题。通过外部类型推断和常量化替换,本发明能够准确识别和优化常量参数,优化后的tiling参数被嵌入到核函数中,解决了运行时不必要的计算开销问题,最终达到了提升核函数执行效率的效果。本发明通过常量传播、死代码删除和公共子表达式优化等优化步骤,有效减少了冗余计算和无用代码,解决了核函数执行效率低下的问题,最终达到了加速深度学习模型推理过程的效果。
-
公开(公告)号:CN116010224A
公开(公告)日:2023-04-25
申请号:CN202211324471.9
申请日:2022-10-27
Applicant: 中国科学技术大学
Abstract: 本发明涉及GPU性能评测领域,公开了一种面向深度学习模型部署的GPU性能评测方法,本发明提出了T‑Profiler框架,引入两阶段解析技术,即“核函数类别解析”和“核函数聚合解析”,可以半自动地获取模型在部署后的多层次性能;通过两阶段的设计,可以适配多种深度学习编译器和多种目标硬件的评测工具;经实验表明,T‑Profiler框架相较于原有的评测系统,可以低代码适配多种应用场景,实现对被测模型性能瓶颈和模块性能的快速统计分析。
-
-