一种深度学习编译器的图优化序列生成方法及装置

    公开(公告)号:CN116991388B

    公开(公告)日:2024-01-09

    申请号:CN202311252630.3

    申请日:2023-09-26

    Abstract: 本申请公开了一种深度学习编译器的图优化序列生成方法及装置,通过预先训练完成的序列生成模型,根据目标模型的图中间表示,确定各优化策略分别对应的优化特征,再通过序列生成模型的解码器,确定各排位分别对应的排位特征,进而基于各排位特征和各优化特征之间的相关度,确定各排位分别对应的优化策略,以此来确定目标序列。本申请可根据各优化策略确定出各排位分别对应的排位特征,以此来确定出各排位分别匹配的优化策略,使得确定出的目标序列中包含的优化策略与其对应的排位互相匹配,进而保证基于该目标序列优化得到的目标模型的业务执行效率。

    一种算子调用代码自动生成的方法、装置、介质及设备

    公开(公告)号:CN116932092B

    公开(公告)日:2024-01-09

    申请号:CN202311202669.4

    申请日:2023-09-18

    Abstract: 本说明书公开了一种算子调用代码自动生成的方法、装置、介质及设备。所述方法包括:获取后端硬件平台对应的算子库基本信息以及目标深度学习算法的计算图;根据算子库基本信息生成算子调用代码的代码头;对计算图进行解析,确定计算图中的各前端算子;针对每个前端算子,根据该前端算子与算子调用模板之间的映射关系,确定该算子对应算子调用模板的声明语句以及模板函数的调用语句;根据代码头、声明语句、调用语句以及该算子对应的配置信息,生成完整的后端算子的调用代码;根据每个后端算子的调用代码调用各后端算子,以通过各后端算子执行计算任务。(56)对比文件丁然;林建文;朱振华;刘弋波.一种类CPU的深度学习协处理器架构.中国集成电路.2020,(第Z4期),全文.王秉睿;兰慧盈;陈云霁.深度学习编程框架.大数据.2018,(第04期),全文.傅鹂;鲁先志;蔡斌.一种基于数据流驱动的数据流连续查询模型.重庆工学院学报(自然科学版).2008,(第10期),全文.

    一种高性能算子选择的动态决策方法及装置

    公开(公告)号:CN117171577A

    公开(公告)日:2023-12-05

    申请号:CN202311450171.X

    申请日:2023-11-02

    Abstract: 本说明书公开了一种高性能算子选择的动态决策方法及装置,包括:在选择模型中特定算子应该由算子库中具体的哪一个算子实现时,需要定位到模型中特定算子的shape特征的特征区间下,并确定该特征区间下的性能排序子表是否被更新过,若是,则可以直接通过该特征区间下更新好的性能排序子表选取出目标算子,若还未更新,则在模型训练阶段可以在每一轮训练时选取不同的算子在模型中进行训练,从而得到算子的性能分数,对性能排序子表进行更新,那么在后续训练这个模型(或者其他模型中需要相同特征区间下的shape特征的算子)时,可以直接使用该性能排序子表选取出合适的算子,从而相比于现有技术能够更加准确的选择出性能良好的算子。

    一种生成存内计算神经网络模型的方法、装置及介质

    公开(公告)号:CN117077726A

    公开(公告)日:2023-11-17

    申请号:CN202311344094.X

    申请日:2023-10-17

    Abstract: 本申请公开了一种生成存内计算神经网络模型的方法,首先根据待构建的神经网络模型的目标任务,根据历史执行所述目标任务的任务数据作为训练样本,以及将目标任务的执行结果作为标注,之后通过对量化可微超网络的模型结构进行初始化,确定模型各节点之间数据传递顺序的有向无环图,确定架构参数以及权重参数,依该有向无环图的顺序,通过训练样本对权重参数进行调整,然后通过调整后的权重参数配置的模型,调整架构参数,得到存内运行的神经网络模型。通过权值继承,实现了可交替优化的两种参数,分别通过有监督训练和启发式学习进行调整,使得可以更为高效的学习深度神经网络架构。

    基于GPU的任务调度方法、电子装置和存储介质

    公开(公告)号:CN117032937A

    公开(公告)日:2023-11-10

    申请号:CN202311271781.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种基于GPU的任务调度方法、电子装置和存储介质,其中,该任务调度方法包括:统计预设运行时间内调度器的GPU执行新任务时计算资源使用率超过计算资源平均使用率的时间占比和显存占用率超过显存平均占用率的时间占比;获取性能拐点显存占用率;据此划分新任务的类型并根据该类型和各执行器的GPU的运行任务数据,将新任务调度至匹配的执行器;执行前基于GPU运行状态、显存占用情况、新任务及正运行的任务的性能拐点显存占用率,分配GPU资源。通过本申请,解决了不具备优先级信息时GPU资源利用率低的问题,实现了在不具备任务优先级信息的情况下提高GPU资源利用率。

    一种深度学习编译器的图优化序列生成方法及装置

    公开(公告)号:CN116991388A

    公开(公告)日:2023-11-03

    申请号:CN202311252630.3

    申请日:2023-09-26

    Abstract: 本申请公开了一种深度学习编译器的图优化序列生成方法及装置,通过预先训练完成的序列生成模型,根据目标模型的图中间表示,确定各优化策略分别对应的优化特征,再通过序列生成模型的解码器,确定各排位分别对应的排位特征,进而基于各排位特征和各优化特征之间的相关度,确定各排位分别对应的优化策略,以此来确定目标序列。本申请可根据各优化策略确定出各排位分别对应的排位特征,以此来确定出各排位分别匹配的优化策略,使得确定出的目标序列中包含的优化策略与其对应的排位互相匹配,进而保证基于该目标序列优化得到的目标模型的业务执行效率。

    一种基于NUMA系统特性优化Winograd卷积的方法及装置

    公开(公告)号:CN116401502B

    公开(公告)日:2023-11-03

    申请号:CN202310680737.1

    申请日:2023-06-09

    Abstract: 本发明公开了一种基于NUMA系统特性优化Winograd卷积的方法及装置,该方法首先根据输入参数构建内存数据布局;采用缓存分块搜索方法确定数据分块大小;利用CPU的多核心执行Winograd卷积计算:将数据分块读取到CPU高速缓存,依次执行输入转换、矩阵乘法和输出转换,再将数据分块写回内存。进一步优化Winograd卷积的内存访问从而提升其在NUMA系统上的性能表现。

    一种算子调用代码自动生成的方法、装置、介质及设备

    公开(公告)号:CN116932092A

    公开(公告)日:2023-10-24

    申请号:CN202311202669.4

    申请日:2023-09-18

    Abstract: 本说明书公开了一种算子调用代码自动生成的方法、装置、介质及设备。所述方法包括:获取后端硬件平台对应的算子库基本信息以及目标深度学习算法的计算图;根据算子库基本信息生成算子调用代码的代码头;对计算图进行解析,确定计算图中的各前端算子;针对每个前端算子,根据该前端算子与算子调用模板之间的映射关系,确定该算子对应算子调用模板的声明语句以及模板函数的调用语句;根据代码头、声明语句、调用语句以及该算子对应的配置信息,生成完整的后端算子的调用代码;根据每个后端算子的调用代码调用各后端算子,以通过各后端算子执行计算任务。

    一种模型训练加速的方法、装置、存储介质及电子设备

    公开(公告)号:CN116822657A

    公开(公告)日:2023-09-29

    申请号:CN202311080496.3

    申请日:2023-08-25

    Inventor: 陈光 李勇 朱世强

    Abstract: 本说明书公开了一种模型训练加速的方法、装置、存储介质及电子设备,确定用于模型训练的目标样本数据的标识,作为目标标识,当缓存空间中不存在与所述目标标识匹配的样本数据时,将所述目标标识存储在延迟访问队列中,将所述缓存空间中未被使用的样本数据作为目标样本数据,并训练所述模型,当满足预设条件时,从磁盘中获取所述延迟访问队列中的至少部分标识对应的样本数据,并加载至所述缓存空间中。本方法通过当缓存中不存在目标样本数据时,将目标样本数据替换为缓存中其他未被使用的样本数据,提升模型训练的速度,延迟加载目标样本数据至缓存中,以减少获取目标样本数据的时间。

Patent Agency Ranking