量子模拟器实现方法、装置、相关设备以及量子模拟方法

    公开(公告)号:CN113887730B

    公开(公告)日:2024-08-27

    申请号:CN202111040089.0

    申请日:2021-09-06

    Abstract: 本发明公开了一种量子模拟器实现方法、装置、相关设备以及量子模拟方法,其中,上述量子模拟器实现方法包括:构建量子比特门算子,其中,上述量子比特门算子用于基于量子门的操作位对目标设备中的数据进行搬运并进行态矢量更新;构建量子模拟器,其中,上述量子模拟器中包括上述量子比特门算子,上述量子模拟器是实现量子线路模拟的软件包;将上述量子模拟器部署到上述目标设备中,上述目标设备为昇腾AI处理器。与现有技术相比,本发明方案中获取可以对昇腾AI处理器中的数据进行搬运并进行态矢量更新的量子比特门算子,并根据量子比特门算子获取能部署到昇腾AI处理器中运行的量子模拟器,从而有利于充分利用昇腾AI处理器的计算能力实现量子模拟。

    并行计算硬件中矩阵乘法运算的处理方法及相关设备

    公开(公告)号:CN117370722A

    公开(公告)日:2024-01-09

    申请号:CN202311376164.X

    申请日:2023-10-23

    Abstract: 本申请实施例提供了一种并行计算硬件中矩阵乘法运算的处理方法及相关设备,通过获取第一初始矩阵和第二初始矩阵;然后基于单精度数据类型进行半精度处理,得到第一初始矩阵的第一半精度矩阵,以及第二初始矩阵的第二半精度矩阵;再基于第一初始矩阵和第一半精度矩阵的差值得到第一差值矩阵,以及基于第二初始矩阵和第二半精度矩阵的差值得到第二差值矩阵;最后,累加第一半精度矩阵和第二半精度矩阵的乘积、第一半精度矩阵和第二差值矩阵的乘积以及第二半精度矩阵和第一差值矩阵的乘积,得到第一单精度目标矩阵,从而在仅支持半精度乘法运算的硬件设备上得到一个精准度较高的单精度乘法运算结果。

    基于求逆归一化的模型优化方法、装置、设备和介质

    公开(公告)号:CN117151195A

    公开(公告)日:2023-12-01

    申请号:CN202311050918.2

    申请日:2023-08-18

    Abstract: 本发明提供了一种基于求逆归一化的模型优化方法、装置、设备和介质,方法包括:获取深度神经网络模型,并计算出深度神经网络模型中每个网络层的逆矩阵;根据每个网络层的逆矩阵得到Fisher信息矩阵的逆矩阵和多个中间梯度值;根据多个中间梯度值计算平均梯度项和平均平方项;根据Fisher信息矩阵的逆矩阵对平均平方项进行划分处理,得到每个网络层对应的梯度向量;对每个网络层的梯度向量进行归一化处理,得到单位化平均平方项;根据单位化平均平方项和平均梯度项调整深度神经网络模型中的待优化变量,得到优化后的深度神经网络模型,其中,本申请提供了一种能够在仅增加少量功耗的情况下优化神经网络的训练精度的模型优化方案,以提高模型性能。

    深度学习模型的训练方法、装置、终端、及存储介质

    公开(公告)号:CN115936103A

    公开(公告)日:2023-04-07

    申请号:CN202211525392.4

    申请日:2022-12-01

    Abstract: 本发明公开了一种深度学习模型的训练方法、装置、终端及存储介质,先获取深度学习模型中每个网络层的第一矩阵和第二矩阵;根据第三矩阵,确定第一矩阵的逆矩阵、第二矩阵的逆矩阵;第一矩阵由反向传回来的损失函数值对各网络层非线性映射之前输出的梯度的期望值组成;第二矩阵由各网络等的上一层非线性之后的输出的期望值组成;第三矩阵为第一预设可调参数与预设单位矩阵的乘积;第一矩阵的逆矩阵为第三矩阵与第一矩阵的差值;第二矩阵的逆矩阵为第三矩阵与第二矩阵的差值;基于第一矩阵和第二矩阵的最大特征值、逆矩阵,确定网络层的逆矩阵,以得到深度学习模型的Fisher信息矩阵的逆矩阵对深度学习模型进行训练,极大地减少模型训练的计算资源。

    一种基于AI处理器的数据处理方法和数据处理装置

    公开(公告)号:CN115629872A

    公开(公告)日:2023-01-20

    申请号:CN202211201027.8

    申请日:2022-09-28

    Abstract: 本发明涉及数据处理技术领域,具体是涉及一种基于AI处理器的数据处理方法和数据处理装置。本发明首先将数据处理所需要的各个程序依据其是否涉及矩阵乘划分为主程序和副程序,由于AI处理器适用于处理矩阵乘程序,因此将涉及矩阵乘的主程序放在AI处理器执行以充分利用AI处理器的计算资源,而将不涉及矩阵乘的副程序放在副处理器执行以避免其占用AI处理器的计算资源。本发明的副处理器和AI处理器协同工作,能够降低计算机执行数据处理程序所需的时间。另外,本发明的AI处理器和副处理器异构并行执行分配给各自的程序,异构并行执行即两个处理器同时执行分配给各自的程序,从而进一步降低了计算机执行数据处理程序所需的时间。

    一种奇异值分解运算实现方法、装置以及相关设备

    公开(公告)号:CN113885941A

    公开(公告)日:2022-01-04

    申请号:CN202111040096.0

    申请日:2021-09-06

    Abstract: 本发明公开了一种奇异值分解运算实现方法、装置以及相关设备,其中,上述奇异值分解运算实现方法包括:构建奇异值分解算子,其中,上述奇异值分解算子用于对目标设备中的数据进行搬运并进行奇异值分解运算;将上述奇异值分解算子部署到上述目标设备中,其中,上述目标设备为昇腾AI处理器;获取待处理数据,基于部署后的奇异值分解算子对上述待处理数据进行奇异值分解运算。与现有技术相比,本发明方案中构建可以对昇腾AI处理器中的数据进行搬运并进行奇异值分解运算的奇异值分解算子,并将奇异值分解算子部署到昇腾AI处理器中,有利于充分利用昇腾处理器的计算能力,直接基于昇腾AI处理器对待处理数据进行SVD运算。

    数据处理方法、装置、计算机可读存储介质及计算机设备

    公开(公告)号:CN117093814A

    公开(公告)日:2023-11-21

    申请号:CN202311054523.X

    申请日:2023-08-21

    Abstract: 本申请实施例公开了一种数据处理方法、装置、计算机可读存储介质及计算机设备。包括:确定当前迭代区内第一子矩阵对应的第一输入矩阵和第二输入矩阵;根据第一输入矩阵和第二输入矩阵确定出第一迭代区内的第一个子迭代区的目标第二子矩阵,第一迭代区和当前迭代区域相邻;根据目标第二子矩阵对第一迭代区内至少一个子迭代区进行迭代,得到对应的第三输入矩阵和第四输入矩阵;根据第一输入矩阵、第二输入矩阵以及第三输入矩阵和第四输入矩阵确定出目标迭代区的目标选定子矩阵,目标迭代区与当前迭代区和第一迭代区均不相邻。从而避免在每个迭代区依次迭代都要对全局内存读写一次,减少对处理器的全局内存的读写次数,充分发挥计算机设备的性能。

    针对AI计算集群的运行频率控制方法、系统及相关设备

    公开(公告)号:CN116069152A

    公开(公告)日:2023-05-05

    申请号:CN202310203474.5

    申请日:2023-03-06

    Abstract: 本发明公开了一种针对AI计算集群的运行频率控制方法、系统及相关设备,方法包括:采集获取AI计算集群中各AI处理器对应的处理器状态数据集合;根据各AI处理器对应的处理器状态数据集合分别构建各AI处理器对应的频率关系模型并据此分别获取各AI处理器对应的最优运行频率,其中,一个AI处理器对应的最优运行频率是该AI处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个AI处理器对应的候选运行频率包括根据该AI处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,据此分别对AI计算集群中的各AI处理器进行运行频率控制。本发明有利于降低AI计算集群的功耗和提高AI计算集群的能效比。

    一种基于AI处理器的通用矩阵乘算子的处理方法和装置

    公开(公告)号:CN115185587A

    公开(公告)日:2022-10-14

    申请号:CN202210598490.4

    申请日:2022-05-30

    Abstract: 本发明涉及矩阵处理技术领域,具体是涉及一种基于AI处理器的通用矩阵乘算子的处理方法和装置。依据原矩阵中的设定元素,在CPU上计算出输入矩阵;将所述输入矩阵搬运至所述全局内存;将搬运至所述全局内存的输入矩阵和位于所述全局内存上的矩阵作为通用矩阵乘算子的输入,得到所述通用矩阵乘算子的输出矩阵。本发明在AI处理器上通过通用矩阵乘算子处理矩阵,能够使得AI处理器的计算资源得到充分利用,从而提高了处理矩阵的速度和效率。

    并行计算设备的矩阵运行处理方法及相关设备

    公开(公告)号:CN119322912B

    公开(公告)日:2025-03-25

    申请号:CN202411824110.X

    申请日:2024-12-12

    Abstract: 本申请实施例提出的并行计算设备的矩阵运行处理方法及相关设备,方法包括:获取第一待乘矩阵的第一矩阵维度和第二待乘矩阵的第二矩阵维度;获取中间分块参数,并生成行分块参数和列分块参数;基于中间分块参数、行分块参数和列分块参数计算得到分块数据占用量,并迭代更新中间分块参数;基于行矩阵参数、行分块参数、列矩阵参数和列分块参数计算得到分块运算任务数,并迭代更新行分块参数和列分块参数;最后,基于中间分块参数、行分块参数和列分块参数对第一待乘矩阵和第二待乘矩阵进行矩阵分块,以执行矩阵乘法运算,有效的利用并行计算设备的并行计算资源,提高了在并行计算设备中进行矩阵运算的数据处理可靠性。

Patent Agency Ranking