-
公开(公告)号:CN113887730B
公开(公告)日:2024-08-27
申请号:CN202111040089.0
申请日:2021-09-06
Applicant: 鹏城实验室
IPC: G06N10/00
Abstract: 本发明公开了一种量子模拟器实现方法、装置、相关设备以及量子模拟方法,其中,上述量子模拟器实现方法包括:构建量子比特门算子,其中,上述量子比特门算子用于基于量子门的操作位对目标设备中的数据进行搬运并进行态矢量更新;构建量子模拟器,其中,上述量子模拟器中包括上述量子比特门算子,上述量子模拟器是实现量子线路模拟的软件包;将上述量子模拟器部署到上述目标设备中,上述目标设备为昇腾AI处理器。与现有技术相比,本发明方案中获取可以对昇腾AI处理器中的数据进行搬运并进行态矢量更新的量子比特门算子,并根据量子比特门算子获取能部署到昇腾AI处理器中运行的量子模拟器,从而有利于充分利用昇腾AI处理器的计算能力实现量子模拟。
-
公开(公告)号:CN117370722A
公开(公告)日:2024-01-09
申请号:CN202311376164.X
申请日:2023-10-23
Applicant: 鹏城实验室
Abstract: 本申请实施例提供了一种并行计算硬件中矩阵乘法运算的处理方法及相关设备,通过获取第一初始矩阵和第二初始矩阵;然后基于单精度数据类型进行半精度处理,得到第一初始矩阵的第一半精度矩阵,以及第二初始矩阵的第二半精度矩阵;再基于第一初始矩阵和第一半精度矩阵的差值得到第一差值矩阵,以及基于第二初始矩阵和第二半精度矩阵的差值得到第二差值矩阵;最后,累加第一半精度矩阵和第二半精度矩阵的乘积、第一半精度矩阵和第二差值矩阵的乘积以及第二半精度矩阵和第一差值矩阵的乘积,得到第一单精度目标矩阵,从而在仅支持半精度乘法运算的硬件设备上得到一个精准度较高的单精度乘法运算结果。
-
公开(公告)号:CN117151195A
公开(公告)日:2023-12-01
申请号:CN202311050918.2
申请日:2023-08-18
Applicant: 鹏城实验室
IPC: G06N3/084 , G06N3/0464
Abstract: 本发明提供了一种基于求逆归一化的模型优化方法、装置、设备和介质,方法包括:获取深度神经网络模型,并计算出深度神经网络模型中每个网络层的逆矩阵;根据每个网络层的逆矩阵得到Fisher信息矩阵的逆矩阵和多个中间梯度值;根据多个中间梯度值计算平均梯度项和平均平方项;根据Fisher信息矩阵的逆矩阵对平均平方项进行划分处理,得到每个网络层对应的梯度向量;对每个网络层的梯度向量进行归一化处理,得到单位化平均平方项;根据单位化平均平方项和平均梯度项调整深度神经网络模型中的待优化变量,得到优化后的深度神经网络模型,其中,本申请提供了一种能够在仅增加少量功耗的情况下优化神经网络的训练精度的模型优化方案,以提高模型性能。
-
公开(公告)号:CN115936103A
公开(公告)日:2023-04-07
申请号:CN202211525392.4
申请日:2022-12-01
Applicant: 鹏城实验室
IPC: G06N3/084 , G06N3/04 , G06V10/774 , G06V10/82 , G06V10/764
Abstract: 本发明公开了一种深度学习模型的训练方法、装置、终端及存储介质,先获取深度学习模型中每个网络层的第一矩阵和第二矩阵;根据第三矩阵,确定第一矩阵的逆矩阵、第二矩阵的逆矩阵;第一矩阵由反向传回来的损失函数值对各网络层非线性映射之前输出的梯度的期望值组成;第二矩阵由各网络等的上一层非线性之后的输出的期望值组成;第三矩阵为第一预设可调参数与预设单位矩阵的乘积;第一矩阵的逆矩阵为第三矩阵与第一矩阵的差值;第二矩阵的逆矩阵为第三矩阵与第二矩阵的差值;基于第一矩阵和第二矩阵的最大特征值、逆矩阵,确定网络层的逆矩阵,以得到深度学习模型的Fisher信息矩阵的逆矩阵对深度学习模型进行训练,极大地减少模型训练的计算资源。
-
公开(公告)号:CN115629872A
公开(公告)日:2023-01-20
申请号:CN202211201027.8
申请日:2022-09-28
Applicant: 鹏城实验室
Abstract: 本发明涉及数据处理技术领域,具体是涉及一种基于AI处理器的数据处理方法和数据处理装置。本发明首先将数据处理所需要的各个程序依据其是否涉及矩阵乘划分为主程序和副程序,由于AI处理器适用于处理矩阵乘程序,因此将涉及矩阵乘的主程序放在AI处理器执行以充分利用AI处理器的计算资源,而将不涉及矩阵乘的副程序放在副处理器执行以避免其占用AI处理器的计算资源。本发明的副处理器和AI处理器协同工作,能够降低计算机执行数据处理程序所需的时间。另外,本发明的AI处理器和副处理器异构并行执行分配给各自的程序,异构并行执行即两个处理器同时执行分配给各自的程序,从而进一步降低了计算机执行数据处理程序所需的时间。
-
公开(公告)号:CN113885941A
公开(公告)日:2022-01-04
申请号:CN202111040096.0
申请日:2021-09-06
Applicant: 鹏城实验室
IPC: G06F9/30
Abstract: 本发明公开了一种奇异值分解运算实现方法、装置以及相关设备,其中,上述奇异值分解运算实现方法包括:构建奇异值分解算子,其中,上述奇异值分解算子用于对目标设备中的数据进行搬运并进行奇异值分解运算;将上述奇异值分解算子部署到上述目标设备中,其中,上述目标设备为昇腾AI处理器;获取待处理数据,基于部署后的奇异值分解算子对上述待处理数据进行奇异值分解运算。与现有技术相比,本发明方案中构建可以对昇腾AI处理器中的数据进行搬运并进行奇异值分解运算的奇异值分解算子,并将奇异值分解算子部署到昇腾AI处理器中,有利于充分利用昇腾处理器的计算能力,直接基于昇腾AI处理器对待处理数据进行SVD运算。
-
公开(公告)号:CN119249052A
公开(公告)日:2025-01-03
申请号:CN202411336993.X
申请日:2024-09-24
Applicant: 鹏城实验室
Abstract: 本申请实施例提出的并行计算硬件中矩阵运算的数据处理方法及相关设备,方法包括:首先,获取第一单精度矩阵的第一半精度矩阵和第二单精度矩阵的第二半精度矩阵、第二单精度矩阵与第二半精度矩阵之间的第二误差矩阵、第二误差矩阵中的多个第二分块误差矩阵,并存储至并行计算硬件的L1缓冲区中;逐一获取第一半精度矩阵中第一分块矩阵,存储至L1缓冲区中,并进一步进行矩阵运算得到第一结果矩阵,获取第二结果矩阵和第三结果矩阵,累加第一结果矩阵、第二结果矩阵以及第三结果矩阵得到单精度目标矩阵,并将单精度目标矩阵作为第一单精度矩阵和第二单精度矩阵进行矩阵乘法运算的结果,有效地提高了单精度矩阵乘法的精准度和计算速率。
-
公开(公告)号:CN113887730A
公开(公告)日:2022-01-04
申请号:CN202111040089.0
申请日:2021-09-06
Applicant: 鹏城实验室
IPC: G06N10/00
Abstract: 本发明公开了一种量子模拟器实现方法、装置、相关设备以及量子模拟方法,其中,上述量子模拟器实现方法包括:构建量子比特门算子,其中,上述量子比特门算子用于基于量子门的操作位对目标设备中的数据进行搬运并进行态矢量更新;构建量子模拟器,其中,上述量子模拟器中包括上述量子比特门算子,上述量子模拟器是实现量子线路模拟的软件包;将上述量子模拟器部署到上述目标设备中,上述目标设备为昇腾AI处理器。与现有技术相比,本发明方案中获取可以对昇腾AI处理器中的数据进行搬运并进行态矢量更新的量子比特门算子,并根据量子比特门算子获取能部署到昇腾AI处理器中运行的量子模拟器,从而有利于充分利用昇腾AI处理器的计算能力实现量子模拟。
-
公开(公告)号:CN119476379A
公开(公告)日:2025-02-18
申请号:CN202411414343.2
申请日:2024-10-10
Applicant: 鹏城实验室
Abstract: 本申请实施例公开一种数据处理方法、装置、计算机设备及存储介质,神经网络处理器包括全局内存、中转缓存区和多个计算单元,通过对待更新矩阵进行分块处理得到多个待更新子矩阵,并将多个待更新子矩阵均衡分配给每个计算单元;在第一矩阵中确定出每个待更新子矩阵对应的第一子矩阵,将第一子矩阵从全局内存中搬运至每个待更新子矩阵对应的计算单元的预设缓存区;在第二矩阵中确定每个待更新子矩阵对应的第二子矩阵,将第二子矩阵从全局内存中搬运至中转缓存区;从预设缓存区中获取目标第一子矩阵,从中转缓存区中获取目标第二子矩阵;通过计算单元对每个待更新子矩阵、目标第一子矩阵和目标第二子矩阵进行通用矩阵乘运算,得到更新子矩阵。
-
公开(公告)号:CN117216466A
公开(公告)日:2023-12-12
申请号:CN202311111058.9
申请日:2023-08-30
Applicant: 鹏城实验室
Abstract: 本申请公开了一种数据处理方法、装置、系统及存储介质,涉及人工智能芯片技术领域,包括:获取待求解矩阵,其中,待求解矩阵与三角矩阵、预设矩阵构建得到三角矩阵方程的等式,且待求解矩阵与三角矩阵位于等式的一边,预设矩阵位于等式的另一边;对三角矩阵进行逆变换得到逆三角矩阵;根据人工智能芯片的矩阵运算的第一浮点数精度、待求解矩阵要求的运算精度,对逆三角矩阵、预设矩阵进行精度处理,得到逆三角矩阵对应的第一矩阵、预设矩阵对应的第二矩阵;将第一矩阵和第二矩阵输入到矩阵计算单元,得到矩阵相乘结果,其中,矩阵相乘结果用以表示待求解矩阵。本申请能够显著提升数据处理效率。
-
-
-
-
-
-
-
-
-