一种网络处理器上寄存器的分配方法

    公开(公告)号:CN111736899A

    公开(公告)日:2020-10-02

    申请号:CN202010474445.9

    申请日:2020-05-29

    Abstract: 本发明提供一种网络处理器上寄存器的分配方法,包括:依据原始变量的被访问情况将所述原始变量划分为若干子变量;对所述子变量进行活跃性分析并构建干涉图;至少基于所述干涉图中所述子变量的最大团信息确定所述子变量的优先度,其中,所述子变量的最大团信息是指所述子变量是否包含在最大团中,所述最大团是指所述干涉图中节点所代表的子变量的长度之和最大的完全子图;以及依据所述优先度分配寄存器。

    一种基于图划分的TCAM的分配方法

    公开(公告)号:CN111813540B

    公开(公告)日:2023-06-06

    申请号:CN202010474453.3

    申请日:2020-05-29

    Abstract: 本发明提供一种基于图划分的TCAM的分配方法,包括:将程序执行流程的控制流程图转换为条件变量图;依据效用值贪心地从当前条件变量图的备选节点中选取下一级子图根节点,直至获得最终子图根节点的集合;基于所述最终子图根节点的集合将所述条件变量图划分为若干最终子图;以及依据所述最终子图为所述程序执行流程分配TCAM。

    用于神经网络推理的跨算子边界优化的编译方法及编译器

    公开(公告)号:CN117742718A

    公开(公告)日:2024-03-22

    申请号:CN202311724854.X

    申请日:2023-12-14

    Abstract: 本发明提出一种用于神经网络推理的跨算子边界优化的编译方法和编译器,包括:以神经网络模型计算程序中每个算子的张量表达式作为节点,算子间的张量依赖关系为边,构建计算图;提取图中张量信息,并提取张量表达式的输入输出张量间元素的依赖信息;确定划分张量表达式的算子为割点,将有向无环计算图划分为多个子图,每个子图对应生成一个计算核;为计算核kernel中每一个张量表达式生成一个调度,把计算核kernel中所有调度合并得到统一调度,通过插入重排和同步指令,合并每个计算核kernel的统一调度,得到神经网络模型计算程序的调度程序,以生成可执行的二进制文件,CPU和/或GPU执行二进制文件,得到神经网络模型计算结果。

    在异构处理单元上执行深度神经网络的方法

    公开(公告)号:CN111738434A

    公开(公告)日:2020-10-02

    申请号:CN202010493830.8

    申请日:2020-06-03

    Abstract: 本发明提供一种在异构处理单元上执行深度神经网络的方法,包括:通过算子性能模型预测深度神经网络中各个算子在不同异构处理单元上的运行时间和功耗,其中,所述算子性能模型是以不同算子和不同异构处理单元的组合为输入数据,以所述算子在所述不同异构处理单元上的运行时间和功耗为输出数据,通过训练获得;至少基于所述深度神经网络的结构图以及所述算子在所述不同异构处理单元上的运行时间和/或功耗确定所述算子的分配策略;以及依据所述算子的分配策略将所述算子分配到对应的异构处理单元并执行所述深度神经网络。

    基于深度神经网络的内核融合方法及系统

    公开(公告)号:CN117742679A

    公开(公告)日:2024-03-22

    申请号:CN202311724858.8

    申请日:2023-12-14

    Abstract: 本发明提供了一种基于深度神经网络的内核融合方法,包括:通过编译框架将源码分别编译为主机端中间代码文件和设备端中间代码文件,将上述两个文件输入到融合框架,生成融合后的设备端中间代码文件;将融合后的设备端中间代码文件进行优化和编译,得到带有设备端信息的主机端中间代码文件;将带有设备端信息的主机端中间代码文件和设备端中间代码文件输入到融合框架,生成融合后的主机端中间代码文件;将融合后的主机端中间代码文件进行优化和编译,得到对应的可执行文件。本发明还提供一种基于深度神经网络的内核融合系统、存储介质及电子设备。借此,本发明能够降低性能开销,提高并行资源利用率,从而提升深度神经网络系统的推理性能。

    一种基于图划分的TCAM的分配方法

    公开(公告)号:CN111813540A

    公开(公告)日:2020-10-23

    申请号:CN202010474453.3

    申请日:2020-05-29

    Abstract: 本发明提供一种基于图划分的TCAM的分配方法,包括:将程序执行流程的控制流程图转换为条件变量图;依据效用值贪心地从当前条件变量图的备选节点中选取下一级子图根节点,直至获得最终子图根节点的集合;基于所述最终子图根节点的集合将所述条件变量图划分为若干最终子图;以及依据所述最终子图为所述程序执行流程分配TCAM。

    面向人工智能处理器的数据预处理执行方法及系统

    公开(公告)号:CN117725969A

    公开(公告)日:2024-03-19

    申请号:CN202311723455.1

    申请日:2023-12-14

    Abstract: 本发明提出一种面向人工智能处理器的数据预处理执行方法和系统,包括:获取待执行的数据预处理任务;根据该数据预处理任务的输入数据范围和算子,计算该算子在该输入数据范围内执行时的最大值,根据该最大值在人工智能处理器能执行的精度范围内选择该算子的缩放系数,以该缩放系数压缩该数据预处理任务的输入数据的精度,得到压缩数据,将该压缩数据输入该人工智能处理器执行该算子,将执行结果根据该缩放系数恢复为该输入数据的精度,得到该数据预处理任务的执行结果。

    在异构处理单元上执行深度神经网络的方法

    公开(公告)号:CN111738434B

    公开(公告)日:2023-04-07

    申请号:CN202010493830.8

    申请日:2020-06-03

    Abstract: 本发明提供一种在异构处理单元上执行深度神经网络的方法,包括:通过算子性能模型预测深度神经网络中各个算子在不同异构处理单元上的运行时间和功耗,其中,所述算子性能模型是以不同算子和不同异构处理单元的组合为输入数据,以所述算子在所述不同异构处理单元上的运行时间和功耗为输出数据,通过训练获得;至少基于所述深度神经网络的结构图以及所述算子在所述不同异构处理单元上的运行时间和/或功耗确定所述算子的分配策略;以及依据所述算子的分配策略将所述算子分配到对应的异构处理单元并执行所述深度神经网络。

    一种插入同步原语的方法、装置及相关设备

    公开(公告)号:CN118838599A

    公开(公告)日:2024-10-25

    申请号:CN202310474325.2

    申请日:2023-04-25

    Abstract: 本申请提供一种插入同步原语的方法、装置及计算设备,该方法包括:计算设备获取程序中的多个指令对;然后为每个指令对插入对应的包括虚拟标识的虚拟同步原语;最后根据每个指令对对应的虚拟同步原语确定各个指令对对应的同步原语。其中,同步原语中包括事件标识,指令对中的源指令和目的指令由两个不同的执行单元执行;任意两个执行单元对应的事件标识的数量是固定的,且小于这两个执行单元对应的虚拟标识的数量。为程序中各个指令对插入虚拟同步原语,并基于虚拟同步原语确定各个虚拟同步原语对应的同步原语,能够实现自动为程序插入同步原语以保证具有依赖关系的指令之间的依赖,提高为程序插入同步原语的效率,降低编程人员的编程难度。

Patent Agency Ranking