-
公开(公告)号:CN115983356A
公开(公告)日:2023-04-18
申请号:CN202111195567.5
申请日:2021-10-14
Applicant: 上海交通大学
IPC: G06N3/063 , G06N3/0464 , G06N5/04
Abstract: 一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU平台上的推理速度提升。本发明能够提升半精度计算中卷积算子自动代码生成的性能,为神经网络推理计算中融合算子的自动代码生成的性能提供保证。