-
公开(公告)号:CN119861972A
公开(公告)日:2025-04-22
申请号:CN202411937513.5
申请日:2017-07-01
Applicant: 英特尔公司
Inventor: R·凡伦天 , Z·斯波伯 , M·J·查尼 , B·L·托尔 , R·拉波波特 , S·什沃茨曼 , D·鲍姆 , I·亚诺弗 , E·乌尔德-阿迈德-瓦尔 , M·阿德尔曼 , J·考博尔 , Y·戈比尔 , S·卢巴诺维奇
Abstract: 本申请公开了用于片矩阵乘法和累加的系统、方法和装置。具体而言,讨论了矩阵(片)乘法累加和负版本矩阵(片)乘法累加。例如,在一些实施例中,详述了:解码电路,用于对指令解码,该指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及执行电路,用于执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所标识的源/目的地矩阵操作数中并将所标识的源/目的地矩阵操作数的未配置列归零。
-
公开(公告)号:CN108431771B
公开(公告)日:2023-12-19
申请号:CN201680075267.4
申请日:2016-11-23
Applicant: 英特尔公司
Inventor: C·S·安德森 , M·A·科尔内亚-哈瑟甘 , E·乌尔德-阿迈德-瓦尔 , R·凡伦天 , J·考博尔 , N·阿斯塔菲耶夫 , M·J·查尼 , M·B·吉尔卡尔 , A·格雷德斯廷 , S·卢巴诺维奇 , Z·斯波伯
Abstract: 一种示例处理器包括寄存器和融合乘加(FMA)低功能单元。所述寄存器存储第一、第二和第三浮点(FP)值。所述FMA低功能单元接收用于执行FMA低运算的请求:将所述第一FP值与所述第二FP值相乘以便获得第一乘积值;将所述第一乘积与所述第三FP值相加以便生成第一结果值;舍入所述第一结果以便生成第一FMA值;将所述第一FP值与所述第二FP值相乘以便获得第二乘积值;将所述第二乘积值与所述第三FP值相加以便生成第二结果值;并且从所述第二结果值中减去所述FMA值以便获得第三结果值,所述第三结果值然后能够被归一化并舍入(FMA低结果)并且
-
公开(公告)号:CN115729617A
公开(公告)日:2023-03-03
申请号:CN202210906473.2
申请日:2022-07-29
Applicant: 英特尔公司
Abstract: 本申请公开了BFLOAT16融合乘法指令。描述了用于响应于指令而执行BF16FMA的技术。在一些示例中,指令包括用于以下各项的字段:操作码、紧缩数据源/目的地操作对象(第一源)的位置的标识、第二紧缩数据源操作对象的位置的标识、第三紧缩数据源操作对象的位置的标识、以及紧缩数据源/目的地操作对象的位置的标识,其中,操作码用于指示出操作对象排序并且指示出执行电路要进行:针对每一数据元素位置使用第一、第二和第三源操作对象执行BF16值融合乘法‑累加操作,以及将结果存储在源/目的地操作对象的对应数据元素位置中。
-
公开(公告)号:CN112711443A
公开(公告)日:2021-04-27
申请号:CN202110203969.9
申请日:2019-10-09
Applicant: 英特尔公司
Abstract: 所公开实施例涉及用于执行16位浮点向量点积指令的系统和方法。在一个示例中,处理器包括:取出电路,用于取出指令,该指令具有用于指定操作码以及第一源向量、第二源向量和目的地向量的位置的字段,该操作码用于指示执行电路用于将所指定的第一源和第二源的N对16位浮点格式化元素相乘,并且将所得的乘积与所指定的目的地的对应的单精度元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如该操作码所指定地对经解码的指令作出响应。
-
公开(公告)号:CN111752618A
公开(公告)日:2020-10-09
申请号:CN202010127345.9
申请日:2020-02-28
Applicant: 英特尔公司
Abstract: 本申请公开了浮点加法器的交错流水线。所公开实施例涉及浮点(FP)加法器的交错流水线。在一个示例中,处理器用于执行指令,该指令指定操作码并指定M乘K的第一源矩阵、K乘N的第二源矩阵、和M乘N的目的地矩阵的位置,该操作码指示执行电路用于针对目的地矩阵的每个FP元素(M,N)启动流水线的K个实例,该流水线的K个实例具有:第一乘法级,在第一乘法级期间将第一源矩阵的FP元素(M,K)与第二源矩阵的对应FP元素(K,N)相乘;并发地,在指数差级中,确定乘积与目的地矩阵的元素(M,N)的前一FP值之间的指数差;以及在第二加法-旁路级中,将乘积与前一FP值累加并且并发地将累加和旁路到后续流水线实例。
-
公开(公告)号:CN111752605A
公开(公告)日:2020-10-09
申请号:CN202010101911.9
申请日:2020-02-19
Applicant: 英特尔公司
Abstract: 本申请公开了使用浮点乘法-累加结果的模糊-J位位置。所公开实施例涉及执行浮点(FP)算术。在一个示例中,处理器用于对指令解码,该指令指定第一浮点(FP)操作数、第二FP操作数和第三FP操作数的位置以及操作码,该操作码要求将第一FP操作数和第二FP操作数的FP乘积与第三FP操作数的先前内容累加,并且执行电路用于:在第一周期中,生成具有模糊-J位格式的FP乘积,该模糊-J位格式包括符号位、9位的指数、以及25位的尾数,该25位的尾数具有用于J位的两个可能位置;以及在第二周期中,将FP乘积与第三FP操作数累加,同时并发地基于FP乘积与第三FP操作数的J位位置来确定对累加的结果的指数调节和尾数移位控制,其中并发地执行指数调节提高在一个周期中执行累加的能力。
-
公开(公告)号:CN104137053B
公开(公告)日:2018-06-26
申请号:CN201180076420.2
申请日:2011-12-23
Applicant: 英特尔公司
CPC classification number: G06F9/3001 , G06F9/30014 , G06F9/30018 , G06F9/30036 , G06F9/30145 , G06F9/30167 , G06F9/30185 , G06F17/142
Abstract: 描述了用于响应于单个向量打包蝴蝶横向交叉加法或减法指令在计算机处理器中执行打包数据元素的向量打包蝴蝶横向交叉加法或减法的系统、装置和方法的实施例,该指令包括目的地向量寄存器操作数、源向量寄存器操作数、立即数以及操作码。
-
公开(公告)号:CN104115114B
公开(公告)日:2018-06-12
申请号:CN201180076304.0
申请日:2011-12-23
Applicant: 英特尔公司
Inventor: E·乌尔德-阿迈德-瓦尔 , R·凡伦天 , J·考博尔圣阿德里安 , B·L·托尔 , M·J·查尼 , Z·斯波伯 , A·格雷德斯廷
CPC classification number: G06F9/30149 , G06F9/3001 , G06F9/30014 , G06F9/30018 , G06F9/30032 , G06F9/30036 , G06F9/3013 , G06F9/30145
Abstract: 描述了一种装置,该装置包含指令执行逻辑电路,该指令执行逻辑电路用于执行第一、第二、第三和第四指令。第一指令和第二指令二者从相应的第一和第二输入向量的多个第一不重叠部分中的一个部分中选择第一组输入向量元素。第一组具有第一位宽。多个第一不重叠部分中的每个部分具有与第一组相同的位宽。第三指令和第四指令两者从相应的第三和第四输入向量的多个第二不重叠部分中的一个部分中选择第二组输入向量元素。第二组具有比所述第一位宽大的第二位宽。多个第二不重叠部分中的每个部分具有与第二组相同的位宽。该装置包括掩码层电路,该掩码层电路用于在第一粒度下对第一和第三指令的第一和第二组进行掩码操作,其中利用该操作产生的相应结果是第一和第三指令的相应结果。该掩码层电路还用于在第二粒度下对第二和第四指令的第一和第二组进行掩码操作,其中利用该操作产生的相应结果是第二和第四指令的相应结果。
-
公开(公告)号:CN104915181B
公开(公告)日:2018-06-05
申请号:CN201510080157.4
申请日:2015-02-13
Applicant: 英特尔公司
CPC classification number: G06F11/079 , G06F11/0721 , G06F11/073
Abstract: 在一些公开的实施例中,指令执行逻辑提供条件存储器错误帮助抑制。处理器的一些实施例包括解码级,用于解码一个或多个指令,所述指令指定:存储器操作集合、一个或多个寄存器以及一个或多个存储器地址。一个或多个执行单元响应于一个或多个经解码的指令生成用于存储器操作集合的所述一个或多个存储器地址。指令执行逻辑记录一个或多个错误抑制位以指示是否对存储器操作集合的一个或多个部分进行掩码。当存储器操作集合中的错误的一个对应于存储器操作集合中被所述一个或多个错误抑制位指示为被掩码的部分时,抑制错误生成逻辑考虑对应于存储器操作集合中的所述错误的一个的存储器错误。
-
公开(公告)号:CN104823153B
公开(公告)日:2018-02-13
申请号:CN201380061966.X
申请日:2013-06-27
Applicant: 英特尔公司
Abstract: 在一个实施例中,处理器包括至少一个浮点单元。该至少一个浮点单元可包括加法器、引导变化预测器(LCA)逻辑以及移位器。加法器可以将第一操作数X与第二操作数Y相加,以获得具有位长度n的输出操作数。LCA逻辑可以:对于从n‑1到1的每一个位位置i,基于第一操作数X和第二操作数Y,获得一组传播值以及一组位值;以及,基于该组传播值以及该组位值,生成LCA掩码。移位器可以基于LCA掩码,归一化输出操作数。描述并要求保护其他实施例。
-
-
-
-
-
-
-
-
-