一种代码优化方法以及优化设备
    1.
    发明公开

    公开(公告)号:CN119690442A

    公开(公告)日:2025-03-25

    申请号:CN202311245446.6

    申请日:2023-09-25

    Abstract: 提供了一种代码优化方法以及优化设备。该方法应用于优化设备,包括:基于识别规则确定待优化的代码中的M个第一通用矩阵向量乘GEMV计算;基于合并规则确定M个第一GEMV计算中的N个第二GEMV计算;将所述N个第二GEMV计算对应的通用矩阵乘GEMM计算插入所述GEMM计算在所述代码中的插入位置,删除所述N个第二GEMV计算。该方案可以实现自动化识别和合并GEMV计算,解决矩阵单元算力浪费的问题。

    一种数据推理方法、模型训练方法及设备

    公开(公告)号:CN119226791A

    公开(公告)日:2024-12-31

    申请号:CN202310809417.1

    申请日:2023-06-30

    Abstract: 本申请提供一种数据推理方法、模型训练方法及设备。在数据推理方法中,计算设备获取第一数据,第一数据为第一时刻的实时数据。计算设备从至少一个候选推理模型中获取目标推理模型,目标推理模型对应的第一采集时刻与第一时刻之间的时间差小于预设阈值,目标训练模型为基于第一训练数据集合对预训练模型进行训练得到的,第一训练数据集合包括在第一采样时刻采集的样本数据以及在第一采样时刻之前预设时长内采集的样本数据。计算设备将第一数据输入目标推理模型,得到第一推理结果。通过该方案,计算设备在推理时使用的目标推理模型为基于较新的采样数据训练得到的模型,从而可以保证目标推理模型的有效性,进而提高推理准确率。

    一种代码优化方法、装置、计算设备及计算机存储介质

    公开(公告)号:CN114594954A

    公开(公告)日:2022-06-07

    申请号:CN202110326368.7

    申请日:2021-03-26

    Abstract: 本申请实施例提供一种代码优化方法、装置、计算设备及计算机存储介质,该方法包括:优化系统识别应用代码中的待优化代码;根据计算设备使用的指令集对应的优化方式,确定对待优化代码进行优化的解空间,然后通过预设方法确定解空间中对待优化代码进行优化的最优解,并根据最优解对应的目标参数值对待优化代码进行优化,得到优化后的目标代码,其中,指令集可以是可伸缩向量扩展指令集,待优化代码可以是模板计算模式的代码,解空间包括每种优化方式对应的配置参数的取值范围。该方法能够基于指令集对应的优化方式,自动为待优化代码选择合适的优化方式以及配置参数的参数值,根据该参数值对待优化代码进行优化,能够提高代码优化的效率。

    I/O加速方法、装置、计算机设备和芯片系统

    公开(公告)号:CN119806527A

    公开(公告)日:2025-04-11

    申请号:CN202311324008.9

    申请日:2023-10-11

    Abstract: 公开了I/O加速方法、装置、计算机设备和芯片系统,涉及计算机技术领域。方法包括:在获取应用源代码之后,先根据应用源代码所具有的结构特征确定应用源代码中包含的I/O信息,这里的结构特征可以用于指示应用源代码中多个代码段的执行顺序。再根据I/O信息生成I/O优化建议,实现I/O加速。应用源代码中包括多个代码段,多个代码段在应用源代码的结构上是具有关联的。相比于通过逐代码行单独分析应用源代码的词法和语法等这种方式获取I/O信息,本申请中结合应用源代码中的多个代码段获取I/O信息,分析多个代码段在时间上执行的先后顺序,可以建立多个代码段之间的联系,更细致地反映应用源代码的执行流程,如此,提升获取I/O信息的效率和准确性。

    一种数据处理装置及方法
    5.
    发明公开

    公开(公告)号:CN119271268A

    公开(公告)日:2025-01-07

    申请号:CN202411126710.9

    申请日:2021-03-17

    Abstract: 本申请提供了一种数据处理装置及方法,用于通过对原始应用代码进行多层IR分解,抽取更丰富的计算与数据流特征得到初始计算图,并对初始计算图进行图变换处理,得到目标计算图,使得原始应用代码对应的应用在不同系统上运行并实现性能可移植,相比于通过用户手动选择实现变换的方式,提高应用调优过程的优化效果与效率。在该装置中,输入模块,用于获取原始应用代码;多层IR分解模块,用于将原始应用代码分解为多层IR,并根据多层IR确定初始计算图;变换模块,用于对初始计算图进行至少一次图变换处理,得到目标计算图;代码生成模块,用于根据目标计算图生成目标应用代码;输出模块,用于向目标设备输出目标应用代码。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119088452A

    公开(公告)日:2024-12-06

    申请号:CN202311113216.4

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

    进行模板计算的方法和装置
    7.
    发明公开

    公开(公告)号:CN117992711A

    公开(公告)日:2024-05-07

    申请号:CN202310104348.4

    申请日:2023-01-19

    Abstract: 本申请实施例公开了一种进行模板计算的方法和装置,属于高性能计算技术领域。所述方法由包括矩阵单元的处理器执行,所述方法包括:获取应用的待处理的数据矩阵;将数据矩阵中待执行模板计算的数据转换为最小数据矩阵与第一系数矩阵的内积运算;将最小数据矩阵与第一系数矩阵的内积运算转换为第二系数矩阵与最小数据矩阵的外积运算,并通过矩阵单元执行外积运算得到第一结果矩阵;对第一结果矩阵求迹得到所述模板计算的结果。采用本申请,能够基于矩阵单元实现模板计算,能够提高处理器执行模板计算的效率。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119356733A

    公开(公告)日:2025-01-24

    申请号:CN202411224268.3

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

    一种代码处理方法、装置及相关设备

    公开(公告)号:CN117931192A

    公开(公告)日:2024-04-26

    申请号:CN202310125318.1

    申请日:2023-01-29

    Abstract: 本申请提供一种代码处理方法、装置及相关设备,包括:计算设备根据计算模式模板集识别源代码中各个代码段的计算模式,对于各个代码段中根据计算模式模板集不能识别出计算模式的待识别代码段,通过逻辑分析识别待识别代码段的计算模式;然后提取各个代码段的模式信息,提取的模式信息包括数据流特征、计算规则特征、控制流特征、存储格式特征或通信操作特征中的任意一种或多种。上述方法在不运行代码的情况下,先通过识别效率高的模板匹配的方式进行识别,能够提高计算模式识别的效率;而对模板匹配不能的代码段,再通过识别准确性高的逻辑分析的方法进行识别,能够提高源代码中识别出计算模式的代码段的数量。

    计算图优化方法及装置
    10.
    发明公开

    公开(公告)号:CN114756444A

    公开(公告)日:2022-07-15

    申请号:CN202110025059.6

    申请日:2021-01-08

    Abstract: 本申请公开了一种计算图优化方法及装置,涉及计算机技术领域,该方法能够提高通过图变换方式优化计算图的效率。该方法由计算图优化装置执行。该方法包括:获取基于待优化代码转化得到的第一计算图。根据多个预设图变换方式,对该第一计算图进行多级迭代变换,从而得到优化后的第一计算图,即得到目标计算图。

Patent Agency Ranking