-
公开(公告)号:CN112559163B
公开(公告)日:2023-05-23
申请号:CN201910854534.3
申请日:2019-09-10
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。
-
公开(公告)号:CN112559163A
公开(公告)日:2021-03-26
申请号:CN201910854534.3
申请日:2019-09-10
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。
-
公开(公告)号:CN116775277A
公开(公告)日:2023-09-19
申请号:CN202310588572.5
申请日:2019-09-10
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量计算加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。
-
公开(公告)号:CN110457649B
公开(公告)日:2021-05-04
申请号:CN201810425693.7
申请日:2018-05-07
Applicant: 华为技术有限公司
IPC: G06F17/18
Abstract: 本申请提供了一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高系统效率。该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。
-
公开(公告)号:CN110457649A
公开(公告)日:2019-11-15
申请号:CN201810425693.7
申请日:2018-05-07
Applicant: 华为技术有限公司
IPC: G06F17/18
Abstract: 本申请提供了一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高系统效率。该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。
-
公开(公告)号:CN112529169B
公开(公告)日:2024-08-13
申请号:CN201910883288.4
申请日:2019-09-18
Applicant: 华为技术有限公司
Abstract: 本申请实施例公开了人工智能领域中的一种数据处理方法,用于减少神经网络模型载入时长。本申请实施例方法包括:获取神经网络模型;确定基于所述神经网络模型进行推理运算所需的内存空间的内存尺寸;更新所述神经网络模型,以得到目标神经网络模型,所述目标神经网络模型携带指示所述内存尺寸的信息。
-
公开(公告)号:CN115461718A
公开(公告)日:2022-12-09
申请号:CN202080100235.1
申请日:2020-04-29
Applicant: 华为技术有限公司
Abstract: 本发明公开了一种将内存分配给神经网络的变量的方法。所述方法包括:确定所述变量的生存期;分析所述变量的控制依赖关系以标识不相交变量;根据所述变量的所述生存期和控制依赖关系,将内存位置分配给所述变量。不相交变量的标识有助于这些变量安全地分配到公共内存位置,而不管它们各自的生存期如何,因为即使这些变量的各自生存期重叠,不相交变量在神经网络期间也不会共存。与仅依赖于变量各自的生存期将内存位置分配给所述神经网络的每个变量相比,可以有利地进一步减少所述神经网络的内存占用。
-
公开(公告)号:CN111291240A
公开(公告)日:2020-06-16
申请号:CN201811489176.2
申请日:2018-12-06
Applicant: 华为技术有限公司
IPC: G06F16/9032
Abstract: 本申请提供一种处理数据的方法和数据处理装置,该方法包括:数据处理装置获取对应于输入数据的输入张量;该数据处理装置确定M1个第一类张量块和M2个第二类张量块;该数据处理装置中的P个处理单元并行处理该M个张量块,其中在第一时间段内,该P个运算单元并行处理的张量块均为第一类张量块;在第二时间段内,该P个运算单元并行处理的张量块均为第二类张量块。上述技术方案中,数据处理装置根据张量块的属性,从M个张量块内确定出了属性相同的张量块,数据处理装置内的处理单元可以根据张量块的属性,对属性相同的张量块进行并行处理,这样,可以提高该数据处理装置处理数据的速度。
-
公开(公告)号:CN117203610A
公开(公告)日:2023-12-08
申请号:CN202180096509.9
申请日:2021-03-29
Applicant: 华为技术有限公司
IPC: G06F8/41
Abstract: 本发明公开了一种数据处理装置(020),包括处理电路(021)。所述处理电路(021)用于实现调度约束注入实体(011),所述调度约束注入实体(011)用于根据一个或多个调度约束(001),适配输入代码的多面体中间表示(000),以获取所述输入代码的适配的多面体中间表示。所述处理电路(021)还用于实现多面体调度器(012),所述多面体调度器(012)用于根据所述输入代码的所述适配的多面体中间表示,生成所述输入代码的已调度多面体中间表示(010)。所述调度约束注入实体(011)还用于根据所述一个或多个调度约束(001),调整所述多面体调度器(012)。此外,本发明还公开了一种对应的数据处理方法。
-
公开(公告)号:CN117785441A
公开(公告)日:2024-03-29
申请号:CN202311614611.0
申请日:2018-12-06
Applicant: 华为技术有限公司
Abstract: 本申请提供一种处理数据的方法和数据处理装置,该方法包括:数据处理装置获取对应于输入数据的输入张量;该数据处理装置确定M1个第一类张量块和M2个第二类张量块;该数据处理装置中的P个处理单元并行处理该M个张量块,其中在第一时间段内,该P个运算单元并行处理的张量块均为第一类张量块;在第二时间段内,该P个运算单元并行处理的张量块均为第二类张量块。上述技术方案中,数据处理装置根据张量块的属性,从M个张量块内确定出了属性相同的张量块,数据处理装置内的处理单元可以根据张量块的属性,对属性相同的张量块进行并行处理,这样,可以提高该数据处理装置处理数据的速度。
-
-
-
-
-
-
-
-
-