一种图形处理器内存优化方法、装置、介质及设备

    公开(公告)号:CN117522669A

    公开(公告)日:2024-02-06

    申请号:CN202410025766.9

    申请日:2024-01-08

    Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。

    一种数据调度方法、装置和计算机设备

    公开(公告)号:CN117032936B

    公开(公告)日:2024-02-06

    申请号:CN202311267177.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种数据调度方法、装置和计算机设备。所述方法包括:对TPU上的数据进行分块,将加载时间和卸载时间均相同的数据划分为同一数据块;基于数据块所对应的加载时间和卸载时间,得到数据调度模型的初始参数;基于每块TPU存储量的大小,得到数据块占用TPU数量的时间分布;根据数据块占用TPU数量的时间分布,计算资源消耗量;利用粒子群优化算法,对初始数据调度模型的参数进行优化训练,直至按照训练后的数据调度模型进行数据调度的资源消耗量,达到按照预设的最少的TPU数量计算得到的资源消耗量时,停止训练,得到完备数据调度模型;基于完备数据调度模型,对TPU上的数据块进行数据调度。采用本方法能够解决计算机的计算

    基于多重多臂老虎机的编译时间资源动态分配方法及系统

    公开(公告)号:CN117009092B

    公开(公告)日:2024-02-02

    申请号:CN202311278281.2

    申请日:2023-10-07

    Abstract: 基于多重多臂老虎机的编译时间资源动态分配方法及系统,其方法包括:步骤1,获取待编译的深度学习模型,对模型进行计算图级别优化,并进行图切分;步骤2,分配深度学习模型整体编译时间,并对时间资源进行分块;步骤3,遍历多个计算子图或算子,对当前某个计算子图或算子采集其历史编译特征信息;步骤4,设置分配决策模型参数进行训练或更新,并对当前计算子图或算子的潜力进行预测;步骤5,采用强化学习技术选择当前最具潜力的计算子图或算子;步骤6,为最具优化潜力的计算子图或算子分配相应的时间资源,并进行自动调优,同时收集当前计算子图或算子的实时编译特征信息;步骤7,返回步骤2,重新开始下一个时间块资源的动态分配。

    计算机程序的编译调优方法、装置和存储介质

    公开(公告)号:CN116991429B

    公开(公告)日:2024-01-16

    申请号:CN202311266395.5

    申请日:2023-09-28

    Abstract: 本申请涉及一种计算机程序的编译调优方法、装置和存储介质,其中,该编译调优方法包括:选择样本硬件集合和样本程序集合并为每个样本程序随机生成优化序列,对每种样本程序与优化序列的组合进行编译、特征抽取以及运行,得到训练数据集,基于训练数据集对预设的多任务学习模型进行训练,得到预训练模型,基于预训练模型进行成本函数模型的初始化,得到目标成本函数模型,利用该目标成本函数模型对目标源程序进行调优,得到目标源程序的最优优化序列。通过本申请,解决了相关技术中计算机程序编译调优效率低下的问题,提高了计算机程序的编译调优效率。

    一种算子优化调度模型的训练方法、装置、介质及设备

    公开(公告)号:CN116755862B

    公开(公告)日:2023-12-19

    申请号:CN202311010092.7

    申请日:2023-08-11

    Abstract: 本说明书公开了一种算子优化调度模型的训练方法、装置、介质及设备,包括:确定当前时刻作为训练样本的预先基于图像数据训练的图像分类模型中的各算子的信息,并输入待训练的算子优化调度模型,确定当前时刻待优化算子。确定对待优化算子进行优化后的待优化算子对图像数据进行图像分类时的运行下降时间。再根据信息、待优化算子以及待优化算子对图像数据进行图像分类时的运行下降时间,对待训练的算子优化调度模型进行训练,使得可以通过训练完成的算子优化调度模型确定当前时刻所需调度进行优化的算子,减少人工设计选择所需优化的算子的策略的麻烦,加快后续将待部署的图像分类模型部署到硬件上的速度。

    一种计算设备散热的方法、装置、存储介质及电子设备

    公开(公告)号:CN116661574B

    公开(公告)日:2023-12-12

    申请号:CN202310860078.X

    申请日:2023-07-13

    Abstract: 本说明书公开了一种计算设备散热的方法、装置、存储介质及电子设备,本方法通过确定各时刻的计算设备的芯片的特征以及计算设备的散热单元中冷却介质的特征确定训练样本,并获取散热单元的控制指令作为训练样本的标注,然后针对每个特征维度,根据该维度的特征对训练样本进行排序以确定该维度的样本序列,再确定标注相同且连续的各训练样本组成的待选样本组,并确定包含训练样本数量不小于预设数量的待选样本组作为目标样本组,根据各目标样本组以及各目标样本组对应的标注确定控制规则,进一步对计算设备进行散热控制。本方法通过对历史上控制指令、芯片特征以及散热单元中冷却介质的特征的学习生成控制规则,使计算设备可以

    张量卸载方法、装置、计算机设备及存储介质

    公开(公告)号:CN117130693A

    公开(公告)日:2023-11-28

    申请号:CN202311397785.6

    申请日:2023-10-26

    Abstract: 本申请涉及一种张量卸载方法、装置、计算机设备及存储介质。所述方法包括:获取张量特征信息,所述张量特征信息包括待训练模型每层的显存容量需求、计算间隔以及计算延迟信息;基于预设卸载策略和所述显存容量需求确定显存约束条件,基于所述预设卸载策略和计算间隔确定卸载时间约束条件,所述预设卸载策略包括主存卸载和重计算卸载;基于所述显存约束条件和卸载时间约束条件筛选所述预设卸载策略,确定多个候选卸载策略;基于所述计算延迟信息确定每个候选卸载策略的额外计算延迟,基于所述额外计算延迟确定目标卸载策略,并基于所述目标卸载策略卸载张量。本申请在对模型训练精度影响较小或无影响的情况下,通过张量卸载来增加显存的有效容量。

    基于多重多臂老虎机的编译时间资源动态分配方法及系统

    公开(公告)号:CN117009092A

    公开(公告)日:2023-11-07

    申请号:CN202311278281.2

    申请日:2023-10-07

    Abstract: 基于多重多臂老虎机的编译时间资源动态分配方法及系统,其方法包括:步骤1,获取待编译的深度学习模型,对模型进行计算图级别优化,并进行图切分;步骤2,分配深度学习模型整体编译时间,并对时间资源进行分块;步骤3,遍历多个计算子图或算子,对当前某个计算子图或算子采集其历史编译特征信息;步骤4,设置分配决策模型参数进行训练或更新,并对当前计算子图或算子的潜力进行预测;步骤5,采用强化学习技术选择当前最具潜力的计算子图或算子;步骤6,为最具优化潜力的计算子图或算子分配相应的时间资源,并进行自动调优,同时收集当前计算子图或算子的实时编译特征信息;步骤7,返回步骤2,重新开始下一个时间块资源的动态分配。

    一种基于深度强化学习的2.5D总体布线方法和系统

    公开(公告)号:CN116384321B

    公开(公告)日:2023-11-07

    申请号:CN202310384336.1

    申请日:2023-04-11

    Abstract: 一种基于深度强化学习的2.5D总体布线方法,包含:步骤1:压缩,将3D总体布线问题压缩为2D总体布线问题;步骤2:数据预处理,包括将多引脚线网按半周长模型升序排序,然后基于直角Steiner最小树算法做拆解,线网拆解的子网再排序。步骤3:基于深度强化学习针对步骤2获得的两引脚对数据点对点布线,获得2D的总体布线方案,若布线方案有溢出,输出拥塞信息;否则执行步骤4。步骤4:通过直角结构层分配技术基于2D的总体布线方案获得3D的总体布线方案。本发明还包括一种基于深度强化学习的2.5D总体布线系统。本发明将多层总体布线问题压缩后基于深度强化学习进行求解,再利用层分配技术获得3D总体布线方案,有效降低算力成本并提高总体布线性能。

    卷积运算的优化方法、装置及处理器

    公开(公告)号:CN116861149A

    公开(公告)日:2023-10-10

    申请号:CN202311136375.6

    申请日:2023-09-05

    Abstract: 本申请涉及一种卷积运算的优化方法、装置及处理器,处理器包括一级缓存,该方法包括:在内存中将卷积运算的输入张量重排为左矩阵,将卷积核重排为右矩阵;将所述左矩阵划分为多个加载矩阵,所述加载矩阵的尺寸基于所述一级缓存的容量确定;将所述多个加载矩阵依次从所述内存加载至所述一级缓存,与所述右矩阵执行矩阵乘计算;将所述多个加载矩阵对应的计算结果累加,得到所述卷积运算的结果,不需要增加输入张量的存储空间,解决了相关技术中存在的将卷积运算转换为矩阵乘计算过程中产生的冗余数据导致内存占用增加和内存局部性较低的问题。

Patent Agency Ranking