-
公开(公告)号:CN116438543A
公开(公告)日:2023-07-14
申请号:CN202180068113.3
申请日:2021-07-19
Applicant: 微软技术许可有限责任公司
Inventor: B·普迪佩迪 , 奚锦文 , M·梅斯马克霍斯罗沙希 , G·瓦斯什特
IPC: G06N3/063 , G06N3/08 , G06F12/084
Abstract: 提供了用于数据和模型并行化中的共享存储器空间的技术,以提高存储器效率和存储器访问速度。共享存储器空间可以在主机系统处或硬件存储器代理中建立。共享存储器可以在一个或多个存储器电路中的存储器地址处,存储用于人工智能模型的训练数据或模型参数。用于人工智能模型的数据可以使用共享存储器空间的训练数据或模型参数而跨多个人工智能加速器被处理。也即,多个加速器从共享存储器空间访问数据的一个副本,而不是访问其自身单独的存储器空间。
-
公开(公告)号:CN115362453A
公开(公告)日:2022-11-18
申请号:CN202180023567.9
申请日:2021-01-20
Applicant: 微软技术许可有限责任公司
Abstract: 描述了与使用流式梯度的硬件辅助梯度优化相关的系统和方法。描述了系统中的示例方法,该系统包括:存储器,被配置为存储与包括L个层的神经网络模型相关联的权重,其中L是大于1的整数;梯度优化器;以及多个工作器。该方法包括在单个突发周期期间,将从多个工作器中的每个工作器接收到的第一组梯度从至少一个梯度缓冲器移动到梯度优化器,并且将权重从耦合到存储器的至少一个缓冲器移动到梯度优化器。该方法还包括在单个突发周期期间将由梯度优化器计算的新权重写回存储器。该方法还包括在单个突发周期期间将新权重从梯度优化器传送到多个工作器中的每个工作器。
-
公开(公告)号:CN115039109A
公开(公告)日:2022-09-09
申请号:CN202080094466.6
申请日:2020-12-16
Applicant: 微软技术许可有限责任公司
Inventor: B·普蒂佩迪 , M·梅斯马霍斯罗沙希 , 奚锦文 , S·M·库尔卡尼 , M·特伦布莱 , M·贝宁格 , N·克劳迪诺·佩雷拉·洛佩斯
Abstract: 本公开的实施例包括一种错误恢复方法,该错误恢复方法包括检测计算错误,重启处理数据集的多个人工智能处理器中的第一人工智能处理器,以及在人工智能处理器加载模型,其中该模型与在由多个人工智能处理器对来自数据集的数据的先前处理迭代期间由多个人工智能处理器处理的相同模型相对应。
-
公开(公告)号:CN114008630A
公开(公告)日:2022-02-01
申请号:CN202080029838.7
申请日:2020-03-30
Applicant: 微软技术许可有限责任公司
Abstract: 包括参数服务器的分布式训练系统被配置为根据聚类算法来压缩权重度量,然后权重矩阵的压缩表示可以被分发给训练工作方。压缩表示可以包括矩心索引矩阵和矩心表,其中矩心索引矩阵的每个元素对应于对应的权重矩阵的元素并且包括对矩心表的索引,并且其中矩心表的每个元素包括矩心值。在另外的示例方面,通过执行聚集缩减相加操作,该聚集缩减相加操作累加与同一矩心值相对应的训练数据矩阵的所有元素以生成部分总和,将每个部分总和乘以其对应矩心值,并且对生成乘积求和,训练工作方可以直接从权重矩阵和训练数据矩阵的压缩表示来计算激活结果。
-
-
-