优化张量计算性能的方法及装置

    公开(公告)号:CN112559163B

    公开(公告)日:2023-05-23

    申请号:CN201910854534.3

    申请日:2019-09-10

    Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。

    优化张量计算性能的方法及装置

    公开(公告)号:CN112559163A

    公开(公告)日:2021-03-26

    申请号:CN201910854534.3

    申请日:2019-09-10

    Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。

    优化张量计算性能的方法及装置
    3.
    发明公开

    公开(公告)号:CN116775277A

    公开(公告)日:2023-09-19

    申请号:CN202310588572.5

    申请日:2019-09-10

    Abstract: 本申请公开优化张量计算性能的方法及装置,涉及深度学习技术领域,有助于加快待执行任务的执行速度,从而有助于提升张量计算的整体性能。该方法包括:第一处理器接收待执行任务的第一代码,待执行任务是对至少一个输入张量进行第一算子和第二算子的运算的任务,第一算子的输出张量为第二算子的一个输入张量;第一处理器确定存储分配规则;其中,存储分配规则包括:将第一算子的输出张量存储至第二处理器内部的存储介质的规则;第一处理器生成待执行任务的第二代码,第二代码为能够在第二处理器上的张量计算加速硬件并行执行的代码,第二代码描述了存储分配规则;第一处理器向第二处理器发送第二代码。

    数据批量选择的方法、装置和计算机存储介质

    公开(公告)号:CN110457649B

    公开(公告)日:2021-05-04

    申请号:CN201810425693.7

    申请日:2018-05-07

    Inventor: 毛坤 张臻 李翀

    Abstract: 本申请提供了一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高系统效率。该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。

    数据批量选择的方法和装置

    公开(公告)号:CN110457649A

    公开(公告)日:2019-11-15

    申请号:CN201810425693.7

    申请日:2018-05-07

    Inventor: 毛坤 张臻 李翀

    Abstract: 本申请提供了一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高系统效率。该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。

    神经网络中的内存分配
    7.
    发明公开

    公开(公告)号:CN115461718A

    公开(公告)日:2022-12-09

    申请号:CN202080100235.1

    申请日:2020-04-29

    Abstract: 本发明公开了一种将内存分配给神经网络的变量的方法。所述方法包括:确定所述变量的生存期;分析所述变量的控制依赖关系以标识不相交变量;根据所述变量的所述生存期和控制依赖关系,将内存位置分配给所述变量。不相交变量的标识有助于这些变量安全地分配到公共内存位置,而不管它们各自的生存期如何,因为即使这些变量的各自生存期重叠,不相交变量在神经网络期间也不会共存。与仅依赖于变量各自的生存期将内存位置分配给所述神经网络的每个变量相比,可以有利地进一步减少所述神经网络的内存占用。

    处理数据的方法和数据处理装置

    公开(公告)号:CN111291240A

    公开(公告)日:2020-06-16

    申请号:CN201811489176.2

    申请日:2018-12-06

    Inventor: 李翀 张臻 毛坤

    Abstract: 本申请提供一种处理数据的方法和数据处理装置,该方法包括:数据处理装置获取对应于输入数据的输入张量;该数据处理装置确定M1个第一类张量块和M2个第二类张量块;该数据处理装置中的P个处理单元并行处理该M个张量块,其中在第一时间段内,该P个运算单元并行处理的张量块均为第一类张量块;在第二时间段内,该P个运算单元并行处理的张量块均为第二类张量块。上述技术方案中,数据处理装置根据张量块的属性,从M个张量块内确定出了属性相同的张量块,数据处理装置内的处理单元可以根据张量块的属性,对属性相同的张量块进行并行处理,这样,可以提高该数据处理装置处理数据的速度。

    为编译器提供多面体调度器的数据处理装置和方法

    公开(公告)号:CN117203610A

    公开(公告)日:2023-12-08

    申请号:CN202180096509.9

    申请日:2021-03-29

    Abstract: 本发明公开了一种数据处理装置(020),包括处理电路(021)。所述处理电路(021)用于实现调度约束注入实体(011),所述调度约束注入实体(011)用于根据一个或多个调度约束(001),适配输入代码的多面体中间表示(000),以获取所述输入代码的适配的多面体中间表示。所述处理电路(021)还用于实现多面体调度器(012),所述多面体调度器(012)用于根据所述输入代码的所述适配的多面体中间表示,生成所述输入代码的已调度多面体中间表示(010)。所述调度约束注入实体(011)还用于根据所述一个或多个调度约束(001),调整所述多面体调度器(012)。此外,本发明还公开了一种对应的数据处理方法。

    处理数据的方法和数据处理装置
    10.
    发明公开

    公开(公告)号:CN117785441A

    公开(公告)日:2024-03-29

    申请号:CN202311614611.0

    申请日:2018-12-06

    Inventor: 李翀 张臻 毛坤

    Abstract: 本申请提供一种处理数据的方法和数据处理装置,该方法包括:数据处理装置获取对应于输入数据的输入张量;该数据处理装置确定M1个第一类张量块和M2个第二类张量块;该数据处理装置中的P个处理单元并行处理该M个张量块,其中在第一时间段内,该P个运算单元并行处理的张量块均为第一类张量块;在第二时间段内,该P个运算单元并行处理的张量块均为第二类张量块。上述技术方案中,数据处理装置根据张量块的属性,从M个张量块内确定出了属性相同的张量块,数据处理装置内的处理单元可以根据张量块的属性,对属性相同的张量块进行并行处理,这样,可以提高该数据处理装置处理数据的速度。

Patent Agency Ranking