-
公开(公告)号:CN114911586A
公开(公告)日:2022-08-16
申请号:CN202110167884.X
申请日:2021-02-07
Applicant: 华为技术有限公司
Abstract: 本申请提供了一种任务调度方法、装置及系统,属于计算机技术领域。本申请提供的方案中,目标计算节点能够获取到目标任务的中间表示和运行时插件。由于该中间表示是与处理器的芯片架构无关的代码,因此目标计算节点可以通过运行时插件将该中间表示编译为目标芯片架构的可执行代码,并在目标芯片架构的处理器中运行该可执行代码。相应的,异构集群中的调度器在调度目标任务时,不会受到该目标任务中已编译的可执行代码的架构的限制,而是可以基于异构集群中各计算节点的资源使用情况,灵活地确定用于执行该目标任务的计算节点。由此,可以确保各计算节点的负载较为均衡,有效提高异构集群的资源利用率。
-
公开(公告)号:CN117076058A
公开(公告)日:2023-11-17
申请号:CN202210500533.0
申请日:2022-05-09
Applicant: 华为技术有限公司
Abstract: 一种线程数调整方法及装置,本申请中,计算系统对机器学习模型训练。机器学习模型训练中一次迭代需并发的执行多个分支任务。调整装置对每个分支任务的线程数进行多次调整。具体到一次调整,获取该次调整对应一个候选线程数组合,候选线程数组合包括每个分支任务在本次调整时对应的线程数。利用候选线程数组合调整每个分支任务的线程数。每次调整之后,获取计算系统的性能参数值。在经过N次调整之后,得到多个性能参数值。从多个性能参数值选择目标性能参数值,用目标性能参数值对应的候选线程数组合调整每个分支任务的线程数。基于性能参数值选择的候选线程数据组合使计算系统的性能优势得到较大程度的展示,提升计算系统执行效率。
-
公开(公告)号:CN118819881A
公开(公告)日:2024-10-22
申请号:CN202310463945.6
申请日:2023-04-20
Applicant: 华为技术有限公司
IPC: G06F9/54 , G06N3/084 , G06N3/04 , G06N3/0985 , G06N20/00
Abstract: 本申请提供了内存复用方法、内存复用装置、设备和存储介质,涉及人工智能技术领域。该方法包括在人工智能模型训练过程中的第一阶段开始之前,确定人工智能模型训练过程中的第二阶段对应的第一数据是否被从计算机的第一内存转移至计算机的第二内存,第一内存的访问速度高于第二内存的访问速度,第一数据为在第一阶段不会被使用的数据。该方法还包括如果确定第一数据已被转移到第二内存中,将第一阶段需要使用的第二数据存储到第一内存中的、用于存储第一数据的存储区域。本申请的实施例在训练人工智能模型时,可以在预定的存储空间中训练更大参数规模的人工智能模型,提高了高带宽内存利用率,并且降低了对训练性能的影响。
-
公开(公告)号:CN117151184A
公开(公告)日:2023-12-01
申请号:CN202210555107.7
申请日:2022-05-19
Applicant: 华为技术有限公司
IPC: G06N3/08
Abstract: 本申请提供了一种稀疏参数的更新方法、训练节点、设备和存储介质,属于深度学习技术领域。该方法应用于人工智能模型训练系统,系统包括第一参数节点、第一训练节点和第二训练节点。该方法包括:第一训练节点从第一参数节点获取第一参数集,第一训练节点利用第一参数集中的参数对待训练的数据进行训练,得到第一梯度集,第一梯度集包括第一参数集的参数对应的梯度中分发至第二训练节点的第二训练卡的梯度,第一训练节点将第一梯度集和第一梯度集中的梯度对应的参数发送至第二训练卡,第二训练卡根据第一梯度集中的梯度对第一梯度集中的梯度对应的参数进行更新,第二训练卡将更新后的参数发送至第一参数节点。采用本申请的方案,能够节约传输资源。
-
公开(公告)号:CN105553682B
公开(公告)日:2019-05-24
申请号:CN201510979999.3
申请日:2015-12-23
Applicant: 华为技术有限公司
Abstract: 本发明实施例公开了一种事件通知方法及用于事件通知的系统,该系统包括至少一个集群节点、多个网络设备和多个事件订阅者,事件订阅者包括客户端或者服务器;集群节点与多个网络设备连接,每个网络设备与一个或多个事件订阅者连接,并且同一个网络设备连接的一个或多个事件订阅者所订阅的主题相同。集群主节点接收到待通知事件后,根据该待通知事件的主题,查询事件主题与网络设备的地址之间的对应关系,得到待通知事件的主题对应的目标网络设备的地址,并按照目标网络设备的地址将待通知事件发送给目标网络设备;最后,由目标网络设备将待通知事件组播给自身所连接的全部事件订阅者。降低了网络层的消息传输量,提高了事件通知效率。
-
公开(公告)号:CN117669679A
公开(公告)日:2024-03-08
申请号:CN202211000103.9
申请日:2022-08-19
Applicant: 华为技术有限公司
Abstract: 本申请提供了一种模型参数管理的方法、主机、设备和存储介质,属于神经网络技术领域。该方法应用于主机,主机包括加速卡和内存,神经网络模型在主机的加速卡上运行,神经网络模型包括多个训练层,神经网络模型的多个训练层对应的参数存储在该内存中,该方法包括:当运行到神经网络模型的目标任务时,该加速卡获取目标任务对应的参数,其中目标任务包括多个训练层中至少一个训练层,目标任务对应的参数是从该内存中获取,该加速卡使用目标任务对应的参数执行目标任务,以对目标任务对应的至少一个训练层进行计算。采用本申请的方案,能够在训练或者推理时减少使用的加速卡的数目。
-
公开(公告)号:CN105553682A
公开(公告)日:2016-05-04
申请号:CN201510979999.3
申请日:2015-12-23
Applicant: 华为技术有限公司
CPC classification number: H04L67/26 , H04L12/1859
Abstract: 本发明实施例公开了一种事件通知方法及用于事件通知的系统,该系统包括至少一个集群节点、多个网络设备和多个事件订阅者,事件订阅者包括客户端或者服务器;集群节点与多个网络设备连接,每个网络设备与一个或多个事件订阅者连接,并且同一个网络设备连接的一个或多个事件订阅者所订阅的主题相同。集群主节点接收到待通知事件后,根据该待通知事件的主题,查询事件主题与网络设备的地址之间的对应关系,得到待通知事件的主题对应的目标网络设备的地址,并按照目标网络设备的地址将待通知事件发送给目标网络设备;最后,由目标网络设备将待通知事件组播给自身所连接的全部事件订阅者。降低了网络层的消息传输量,提高了事件通知效率。
-
-
-
-
-
-