-
公开(公告)号:CN119476379A
公开(公告)日:2025-02-18
申请号:CN202411414343.2
申请日:2024-10-10
Applicant: 鹏城实验室
Abstract: 本申请实施例公开一种数据处理方法、装置、计算机设备及存储介质,神经网络处理器包括全局内存、中转缓存区和多个计算单元,通过对待更新矩阵进行分块处理得到多个待更新子矩阵,并将多个待更新子矩阵均衡分配给每个计算单元;在第一矩阵中确定出每个待更新子矩阵对应的第一子矩阵,将第一子矩阵从全局内存中搬运至每个待更新子矩阵对应的计算单元的预设缓存区;在第二矩阵中确定每个待更新子矩阵对应的第二子矩阵,将第二子矩阵从全局内存中搬运至中转缓存区;从预设缓存区中获取目标第一子矩阵,从中转缓存区中获取目标第二子矩阵;通过计算单元对每个待更新子矩阵、目标第一子矩阵和目标第二子矩阵进行通用矩阵乘运算,得到更新子矩阵。
-
公开(公告)号:CN119249052A
公开(公告)日:2025-01-03
申请号:CN202411336993.X
申请日:2024-09-24
Applicant: 鹏城实验室
Abstract: 本申请实施例提出的并行计算硬件中矩阵运算的数据处理方法及相关设备,方法包括:首先,获取第一单精度矩阵的第一半精度矩阵和第二单精度矩阵的第二半精度矩阵、第二单精度矩阵与第二半精度矩阵之间的第二误差矩阵、第二误差矩阵中的多个第二分块误差矩阵,并存储至并行计算硬件的L1缓冲区中;逐一获取第一半精度矩阵中第一分块矩阵,存储至L1缓冲区中,并进一步进行矩阵运算得到第一结果矩阵,获取第二结果矩阵和第三结果矩阵,累加第一结果矩阵、第二结果矩阵以及第三结果矩阵得到单精度目标矩阵,并将单精度目标矩阵作为第一单精度矩阵和第二单精度矩阵进行矩阵乘法运算的结果,有效地提高了单精度矩阵乘法的精准度和计算速率。
-