用于神经网络推理的跨算子边界优化的编译方法及编译器

    公开(公告)号:CN117742718A

    公开(公告)日:2024-03-22

    申请号:CN202311724854.X

    申请日:2023-12-14

    Abstract: 本发明提出一种用于神经网络推理的跨算子边界优化的编译方法和编译器,包括:以神经网络模型计算程序中每个算子的张量表达式作为节点,算子间的张量依赖关系为边,构建计算图;提取图中张量信息,并提取张量表达式的输入输出张量间元素的依赖信息;确定划分张量表达式的算子为割点,将有向无环计算图划分为多个子图,每个子图对应生成一个计算核;为计算核kernel中每一个张量表达式生成一个调度,把计算核kernel中所有调度合并得到统一调度,通过插入重排和同步指令,合并每个计算核kernel的统一调度,得到神经网络模型计算程序的调度程序,以生成可执行的二进制文件,CPU和/或GPU执行二进制文件,得到神经网络模型计算结果。

    在异构处理单元上执行深度神经网络的方法

    公开(公告)号:CN111738434A

    公开(公告)日:2020-10-02

    申请号:CN202010493830.8

    申请日:2020-06-03

    Abstract: 本发明提供一种在异构处理单元上执行深度神经网络的方法,包括:通过算子性能模型预测深度神经网络中各个算子在不同异构处理单元上的运行时间和功耗,其中,所述算子性能模型是以不同算子和不同异构处理单元的组合为输入数据,以所述算子在所述不同异构处理单元上的运行时间和功耗为输出数据,通过训练获得;至少基于所述深度神经网络的结构图以及所述算子在所述不同异构处理单元上的运行时间和/或功耗确定所述算子的分配策略;以及依据所述算子的分配策略将所述算子分配到对应的异构处理单元并执行所述深度神经网络。

    基于深度神经网络的内核融合方法及系统

    公开(公告)号:CN117742679A

    公开(公告)日:2024-03-22

    申请号:CN202311724858.8

    申请日:2023-12-14

    Abstract: 本发明提供了一种基于深度神经网络的内核融合方法,包括:通过编译框架将源码分别编译为主机端中间代码文件和设备端中间代码文件,将上述两个文件输入到融合框架,生成融合后的设备端中间代码文件;将融合后的设备端中间代码文件进行优化和编译,得到带有设备端信息的主机端中间代码文件;将带有设备端信息的主机端中间代码文件和设备端中间代码文件输入到融合框架,生成融合后的主机端中间代码文件;将融合后的主机端中间代码文件进行优化和编译,得到对应的可执行文件。本发明还提供一种基于深度神经网络的内核融合系统、存储介质及电子设备。借此,本发明能够降低性能开销,提高并行资源利用率,从而提升深度神经网络系统的推理性能。

    面向人工智能处理器的数据预处理执行方法及系统

    公开(公告)号:CN117725969A

    公开(公告)日:2024-03-19

    申请号:CN202311723455.1

    申请日:2023-12-14

    Abstract: 本发明提出一种面向人工智能处理器的数据预处理执行方法和系统,包括:获取待执行的数据预处理任务;根据该数据预处理任务的输入数据范围和算子,计算该算子在该输入数据范围内执行时的最大值,根据该最大值在人工智能处理器能执行的精度范围内选择该算子的缩放系数,以该缩放系数压缩该数据预处理任务的输入数据的精度,得到压缩数据,将该压缩数据输入该人工智能处理器执行该算子,将执行结果根据该缩放系数恢复为该输入数据的精度,得到该数据预处理任务的执行结果。

    在异构处理单元上执行深度神经网络的方法

    公开(公告)号:CN111738434B

    公开(公告)日:2023-04-07

    申请号:CN202010493830.8

    申请日:2020-06-03

    Abstract: 本发明提供一种在异构处理单元上执行深度神经网络的方法,包括:通过算子性能模型预测深度神经网络中各个算子在不同异构处理单元上的运行时间和功耗,其中,所述算子性能模型是以不同算子和不同异构处理单元的组合为输入数据,以所述算子在所述不同异构处理单元上的运行时间和功耗为输出数据,通过训练获得;至少基于所述深度神经网络的结构图以及所述算子在所述不同异构处理单元上的运行时间和/或功耗确定所述算子的分配策略;以及依据所述算子的分配策略将所述算子分配到对应的异构处理单元并执行所述深度神经网络。

Patent Agency Ranking