-
公开(公告)号:CN114127741A
公开(公告)日:2022-03-01
申请号:CN202080051365.0
申请日:2020-06-09
Applicant: 微软技术许可有限责任公司
Inventor: B·普蒂佩迪 , M·特伦布莱 , S·S·布哈拉德瓦杰 , 奚锦文 , M·梅斯马霍斯罗沙希
Abstract: 本文中所描述的方法、系统、装置和计算机程序产品支持大型AI模型在被通信地连接到参数服务器的存储器受限目标设备上的执行,该参数服务器存储AI模型的主副本。AI模型可以被分解成较小的部分(例如,层或子层),并且每个部分可以在目标设备上尽可能高效地执行。在AI模型的一部分的执行完成之后,可以在目标设备处下载并执行AI模型的另一部分。一次执行AI模型的一部分的该范例允许大型AI模型的动态执行。
-
公开(公告)号:CN118339771A
公开(公告)日:2024-07-12
申请号:CN202280079216.4
申请日:2022-09-19
Applicant: 微软技术许可有限责任公司
IPC: H03K19/17768 , H04L9/00 , G06F7/76
Abstract: 一种现场可编程门阵列FPGA,包括连接多个逻辑块的可配置互连结构,该可配置互连结构和逻辑块被配置为实现数据掩码电路,该数据掩码电路被配置为:接收输入数据(362),该输入数据包括输入数据在多个索引处的数据值;使用掩码多路复用器(365)在数据值中的数据值和替代值之间进行选择以生成所掩码的数据(330),该掩码多路复用器由在与输入数据的索引相对应的索引处的多个掩码值(SIMD)中的掩码值控制;以及输出所掩码的数据。在一些示例中,该可配置互连结构和逻辑块还被配置为实现被配置为生成掩码值的掩码生成电路。在一些示例中,掩码值是从外部存储器接收的。
-
公开(公告)号:CN118176480A
公开(公告)日:2024-06-11
申请号:CN202280072822.3
申请日:2022-09-05
Applicant: 微软技术许可有限责任公司
Abstract: 一种现场可编程门阵列(FPGA),包括连接多个逻辑块的可配置互连结构,该多个逻辑块被配置为实现倒数函数数据路径,包括:包括倒数函数数据路径的尾数部分的尾数计算级,其被配置为:将输入浮点值的M位尾数分量划分为L个最高有效位和M‑L个最低有效位;基于L个最高有效位,从倒数查找表中查找斜率值和偏移值;通过将斜率值乘以M‑L个最低有效位来计算乘积并将偏移值与乘积相加,来计算输出浮点值的输出尾数分量;以及指数计算级,其被配置为计算输出浮点值的输出指数分量,计算输出指数分量包括对输入浮点值的指数分量取反。
-
公开(公告)号:CN119156617A
公开(公告)日:2024-12-17
申请号:CN202380037491.4
申请日:2023-02-14
Applicant: 微软技术许可有限责任公司
Inventor: 奚锦文
Abstract: 一种现场可编程门阵列包括连接逻辑块的可配置互连结构,该逻辑块实现电路以:接收包括组织成行和列的数据值的输入数据,每行具有N个数据值;根据掩码和行的索引i选择输入数据的行的R[i]个未掩码的数据值;根据掩码和另一行的索引选择输入数据的另一行的N‑R[i]个未掩码的数据值;将该行的R[i]个未掩码的数据值和该另一行的N‑R[i]个数据值合并成N个数据值的组合的数据向量;以及基于组合的数据向量的R[i]个未掩码的数据值计算R[i]个归一化的值并基于组合的数据向量的N‑R[i]个数据值计算N‑R[i]个归一化的值以生成N个归一化的数据值。
-
公开(公告)号:CN117897688A
公开(公告)日:2024-04-16
申请号:CN202280058822.8
申请日:2022-08-03
Applicant: 微软技术许可有限责任公司
Abstract: 本公开的实施例的各方面涉及现场可编程门阵列(FPGA),FPGA被配置为实现指数函数数据路径,指数函数数据路径包括:输入缩放级,包括常数移位器和整数加法器,用于将输入浮点值的尾数部分缩放近似log2e来计算缩放后的尾数值,其中e是欧拉数;指数级,包括桶形移位器和指数查找表,用于:基于输入浮点值的指数部分从缩放后的尾数值中提取整数部分和小数部分;将偏置移位应用于整数部分以计算结果浮点值的结果指数部分;基于小数部分在指数查找表中查找结果浮点值的结果尾数部分;以及组合结果指数部分和结果尾数部分以生成结果浮点值。
-
公开(公告)号:CN114341882A
公开(公告)日:2022-04-12
申请号:CN202080061568.8
申请日:2020-06-09
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于压缩值的系统、方法和装置。可以从存储器中获取多个参数,每个参数包括在模型中的人工神经元或节点之间的关系中使用的浮点数。可以从每个浮点数提取尾数值和指数值以生成尾数值集和指数值集。可以压缩该尾数值集以生成尾数查找表(LUT)和多个尾数LUT索引值。可以对该指数值集进行编码以生成指数LUT和多个指数LUT索引值。可以向一个或多个处理实体提供尾数LUT、尾数LUT索引值、指数LUT和指数LUT索引值,以训练模型。
-
公开(公告)号:CN114127740A
公开(公告)日:2022-03-01
申请号:CN202080051343.4
申请日:2020-06-09
Applicant: 微软技术许可有限责任公司
Inventor: B·普蒂佩迪 , M·特伦布莱 , S·S·布哈拉德瓦杰 , D·帕特尔 , 奚锦文 , M·梅斯马霍斯罗沙希
Abstract: 本文中描述了启用大型AI模型在被通信地连接到参数服务器的存储器受限目标设备上的执行的方法、系统、装置和计算机程序产品,该参数服务器存储AI模型的主副本。AI模型可以被分解成较小的部分(例如,层或子层),并且每个部分可以在目标设备上尽可能高效地执行。在AI模型的一部分的执行完成之后,可以在目标设备处下载并执行AI模型的另一部分。为了提高效率,可以将输入样本划分为微批次,并且按顺序执行的多个微批次可以形成迷你批次。可以调节一组微批次或迷你批次的大小以减少通信开销。可以在参数服务器和目标设备处执行多级并行的参数缩减。
-
公开(公告)号:CN115398449A
公开(公告)日:2022-11-25
申请号:CN202180028394.X
申请日:2021-02-09
Applicant: 微软技术许可有限责任公司
Abstract: 描述了与具有减少的存储器需求的双动量梯度优化相关的系统和方法。描述了一种系统中的示例方法,该系统包括梯度优化器和存储器,该存储器被配置为存储与包括L层的神经网络模型相关联的动量值。该方法包括从存储器取回对应于神经网络模型的层的具有所选择的存储格式的第一组动量值和第二组动量值。该方法还包括:将第一组动量值转换为具有与梯度优化器相关联的训练格式的第三组动量值,以及将第二组动量值转换为具有与梯度优化器相关联的训练格式的第四组动量值。该方法还包括使用第三组动量值和第四组动量值来执行梯度优化。
-
公开(公告)号:CN118369667A
公开(公告)日:2024-07-19
申请号:CN202280079267.7
申请日:2022-09-27
Applicant: 微软技术许可有限责任公司
Abstract: 本公开的实施例包括针对融合用于神经网络硬件加速器的算子的系统和方法。标识被包括在神经网络中的映射函数的数据路径中的多个向量乘法运算。将多个向量乘法运算组合成映射函数的数据路径中的单个向量乘法运算。对可编程集成电路(IC)进行编程以实现神经网络的映射函数。
-
公开(公告)号:CN116830077A
公开(公告)日:2023-09-29
申请号:CN202280014048.0
申请日:2022-01-20
Applicant: 微软技术许可有限责任公司
IPC: G06F7/483
Abstract: 本公开的实施例包括用于提供分层和共享指数浮点数据类型的系统和方法。第一共享指数值和第二共享指数值基于多个浮点值的指数值而被确定。第三共享指数值基于第一共享指数值和第二共享指数值而被确定。第一差值和第二差值基于第一共享指数值、第二共享指数值和第三共享指数值而被确定。符号值和尾数值针对多个浮点值而被确定。针对多个浮点值中的每个浮点值的符号值和尾数值、第三共享指数值、第一差值和第二差值被存储在针对共享指数浮点数据类型的数据结构中。
-
-
-
-
-
-
-
-
-