-
公开(公告)号:CN107729048A
公开(公告)日:2018-02-23
申请号:CN201710568910.3
申请日:2013-10-30
Applicant: 英特尔公司
Inventor: T·乌利尔 , E·乌尔德-艾哈迈德-瓦勒 , R·瓦伦丁
CPC classification number: G06F15/8076 , G06F9/30018 , G06F9/30032 , G06F9/30036 , G06F9/30101 , G06F9/30112 , G06F9/3013 , G06F9/30145 , G06F9/30149 , G06F9/3016 , G06F9/30185 , G06F9/3877 , G06F9/3885 , G06F9/3887 , G06F9/3889 , G06F12/0811 , G06F12/084 , G06F12/0875 , G06F2212/452 , G06F2212/62
Abstract: 指令和逻辑提供向量压缩和旋转功能。对指定向量源、掩码、向量目的地和目的地偏移的指令做出响应,一些实施例读取所述掩码并且将相对应的未掩蔽向量元素从所述向量源拷贝到所述向量目的地中在所述向量目的地偏移单元处开始的相邻顺序单元。在一些实施例中,将来自所述向量源的未掩蔽向量元素拷贝到以所述向量目的地中的元素单元的总数量为模的相邻顺序元素单元。在一些可选实施例中,每当所述向量目的地为满时,就停止拷贝,并且在将未掩蔽向量元素从所述向量源拷贝到所述向量目的地中的相邻顺序元素单元时,将所述掩码中的相对应字段的值改变到掩蔽值。可选实施例使其中没有拷贝来自所述向量源的元素的向量目的地的元素归零。
-
公开(公告)号:CN103793201B
公开(公告)日:2017-08-11
申请号:CN201310524909.2
申请日:2013-10-30
Applicant: 英特尔公司
Inventor: T·乌利尔 , E·乌尔德-艾哈迈德-瓦勒 , R·瓦伦丁
CPC classification number: G06F15/8076 , G06F9/30018 , G06F9/30032 , G06F9/30036 , G06F9/30101 , G06F9/30112 , G06F9/3013 , G06F9/30145 , G06F9/30149 , G06F9/3016 , G06F9/30185 , G06F9/3877 , G06F9/3885 , G06F9/3887 , G06F9/3889 , G06F12/0811 , G06F12/084 , G06F12/0875 , G06F2212/452 , G06F2212/62
Abstract: 指令和逻辑提供向量压缩和旋转功能。对指定向量源、掩码、向量目的地和目的地偏移的指令做出响应,一些实施例读取所述掩码并且将相对应的未掩蔽向量元素从所述向量源拷贝到所述向量目的地中在所述向量目的地偏移单元处开始的相邻顺序单元。在一些实施例中,将来自所述向量源的未掩蔽向量元素拷贝到以所述向量目的地中的元素单元的总数量为模的相邻顺序元素单元。在一些可选实施例中,每当所述向量目的地为满时,就停止拷贝,并且在将未掩蔽向量元素从所述向量源拷贝到所述向量目的地中的相邻顺序元素单元时,将所述掩码中的相对应字段的值改变到掩蔽值。可选实施例使其中没有拷贝来自所述向量源的元素的向量目的地的元素归零。
-
公开(公告)号:CN107729048B
公开(公告)日:2021-09-28
申请号:CN201710568910.3
申请日:2013-10-30
Applicant: 英特尔公司
Inventor: T·乌利尔 , E·乌尔德-艾哈迈德-瓦勒 , R·瓦伦丁
Abstract: 指令和逻辑提供向量压缩和旋转功能。对指定向量源、掩码、向量目的地和目的地偏移的指令做出响应,一些实施例读取所述掩码并且将相对应的未掩蔽向量元素从所述向量源拷贝到所述向量目的地中在所述向量目的地偏移单元处开始的相邻顺序单元。在一些实施例中,将来自所述向量源的未掩蔽向量元素拷贝到以所述向量目的地中的元素单元的总数量为模的相邻顺序元素单元。在一些可选实施例中,每当所述向量目的地为满时,就停止拷贝,并且在将未掩蔽向量元素从所述向量源拷贝到所述向量目的地中的相邻顺序元素单元时,将所述掩码中的相对应字段的值改变到掩蔽值。可选实施例使其中没有拷贝来自所述向量源的元素的向量目的地的元素归零。
-
公开(公告)号:CN104919416B
公开(公告)日:2017-09-05
申请号:CN201380062559.0
申请日:2013-06-30
Applicant: 英特尔公司
CPC classification number: G06F9/30021 , G06F9/30018 , G06F9/30036 , G06F9/30109 , G06F9/30145 , G06F9/30185 , G06F9/3838 , G06F9/3887
Abstract: 指令和逻辑提供SIMD地址冲突检测功能。一些实施例包括具有寄存器的处理器,所述寄存器具有可变的多个数据字段,每一个数据字段将数据元素的偏移存储在存储器中。目的寄存器具有相对应的数据字段,这些数据字段中的每一个存储可变的第二多个位,以存储具有针对每一个偏移的掩码位的冲突掩码。响应于对矢量冲突指令进行解码,执行单元比较每一个数据字段与每个较不重要的数据字段中的偏移,以确定它们是否保存着匹配的偏移,以及在目的寄存器中的相对应的冲突掩码中,设置与具有匹配偏移的较不重要的数据字段相对应的任何掩码位。矢量地址冲突检测可以与可变尺寸的元素一起使用,并生成冲突掩码以解决在聚集‑修改‑分散SIMD操作中的相关性。
-
公开(公告)号:CN113490917A
公开(公告)日:2021-10-08
申请号:CN202080014451.4
申请日:2020-01-23
Applicant: 英特尔公司
Inventor: V·安德烈 , A·阿南塔拉曼 , A·R·阿普 , N·加洛坡冯伯里斯 , A·科克 , S·金 , E·乌尔德-艾哈迈德-瓦勒 , M·麦克弗森 , S·马伊尤兰 , V·兰加纳坦 , J·雷 , V·乔治
Abstract: 一个实施例提供了一种通用图形处理单元,包括:一组处理元件,用于执行由通用图形处理器执行的第二内核的一个或多个线程组、耦合到该组处理元件的片上存储器,以及与该组处理元件耦合的调度器,调度器将内核的线程组调度到该组处理元件,其中调度器用于调度第二内核的线程组在第一内核的线程组之后执行,响应于确定第二内核依赖于第一内核,第二内核的线程组被配置为访问片上存储器的包含由第一内核的线程组写入的数据的区域。
-
公开(公告)号:CN113424148A
公开(公告)日:2021-09-21
申请号:CN202080014501.9
申请日:2020-03-14
Applicant: 英特尔公司
Inventor: L·斯特瑞拉马萨尔马 , P·苏提 , V·乔治 , B·阿什博 , A·阿南塔拉曼 , V·安德烈 , A·阿普 , N·加洛坡冯伯里斯 , A·科克 , M·麦克弗森 , S·马伊尤兰 , N·米斯特里 , E·乌尔德-艾哈迈德-瓦勒 , S·帕内尔 , V·兰加纳坦 , J·雷 , A·沙阿 , S·坦格里
IPC: G06F9/38 , G06F12/0862 , G06F9/30
Abstract: 本文公开了用于检测跨分片访问、利用经由复制操作的数据多播提供多分片推理缩放和提供页迁移的多分片存储器管理。在一个实施例中,一种用于多分片架构的图形处理器包括:第一图形处理单元(GPU),其具有存储器和存储器控制器;第二图形处理单元(GPU),其具有存储器;以及跨GPU结构,其用于通信地耦合第一GPU和第二GPU。存储器控制器被配置为:确定在多GPU配置中从第一GPU到第二GPU的存储器是否发生频繁的跨分片存储器访问;以及当从第一GPU到第二GPU的存储器发生频繁的跨分片存储器访问时,发送消息以发起数据传送机制。
-
公开(公告)号:CN104919416A
公开(公告)日:2015-09-16
申请号:CN201380062559.0
申请日:2013-06-30
Applicant: 英特尔公司
CPC classification number: G06F9/30021 , G06F9/30018 , G06F9/30036 , G06F9/30109 , G06F9/30145 , G06F9/30185 , G06F9/3838 , G06F9/3887
Abstract: 指令和逻辑提供SIMD地址冲突检测功能。一些实施例包括具有寄存器的处理器,所述寄存器具有可变的多个数据字段,每一个数据字段将数据元素的偏移存储在存储器中。目的寄存器具有相对应的数据字段,这些数据字段中的每一个存储可变的第二多个位,以存储具有针对每一个偏移的掩码位的冲突掩码。响应于对矢量冲突指令进行解码,执行单元比较每一个数据字段与每个较不重要的数据字段中的偏移,以确定它们是否保存着匹配的偏移,以及在目的寄存器中的相对应的冲突掩码中,设置与具有匹配偏移的较不重要的数据字段相对应的任何掩码位。矢量地址冲突检测可以与可变尺寸的元素一起使用,并生成冲突掩码以解决在聚集-修改-分散SIMD操作中的相关性。
-
公开(公告)号:CN113508362A
公开(公告)日:2021-10-15
申请号:CN202080014422.8
申请日:2020-03-14
Applicant: 英特尔公司
Inventor: J·雷 , S·帕内尔 , S·坦格里 , B·阿什博 , S·贾纳斯 , A·阿普 , V·乔治 , R·伊耶 , N·贾殷 , P·科 , A·科克 , M·麦克弗森 , J·马斯特罗纳尔德 , E·乌尔德-艾哈迈德-瓦勒 , J·P·艾斯 , E·萨姆森
IPC: G06F9/38 , G06F12/0862 , G06F9/30 , G06F12/06
Abstract: 本文描述的实施例包括软件、固件和硬件,该软件、固件和硬件提供用于实现跨多个通用图形处理单元的确定性调度的技术。一个实施例提供了具有统一延迟的多GPU架构。一个实施例提供了用于基于存储器芯片热量来分布存储器输出的技术。一个实施例提供了用于实现热感知工作负载调度的技术。一个实施例提供了用于实现针对在多个GPU上调度工作负载的端到端合同的技术。
-
公开(公告)号:CN113424169A
公开(公告)日:2021-09-21
申请号:CN202080014421.3
申请日:2020-02-24
Applicant: 英特尔公司
Inventor: V·乔治 , A·科克 , A·阿南塔拉曼 , S·马伊尤兰 , S·金 , V·安德烈 , E·乌尔德-艾哈迈德-瓦勒 , J·雷 , A·R·阿普 , N·C·加洛坡冯伯里斯 , P·苏提 , M·麦克弗森
Abstract: 公开了一种包括具有用于临时缓冲的片上密集存储器的通用图形处理单元的装置。在一个实施例中,一种图形多处理器包括:多个计算引擎,其用于执行第一计算以生成第一组数据;高速缓存,其用于存储数据;以及高密度存储器,其与多个计算引擎和高速缓存一起在片上集成。该高密度存储器用于接收第一组数据,临时地存储第一组数据,并且在第一时间段期间将第一组数据提供给高速缓存,该第一时间段在多个计算引擎将使用第一组数据进行第二计算的第二时间段之前。
-
公开(公告)号:CN103793201A
公开(公告)日:2014-05-14
申请号:CN201310524909.2
申请日:2013-10-30
Applicant: 英特尔公司
Inventor: T·乌利尔 , E·乌尔德-艾哈迈德-瓦勒 , R·瓦伦丁
CPC classification number: G06F15/8076 , G06F9/30018 , G06F9/30032 , G06F9/30036 , G06F9/30101 , G06F9/30112 , G06F9/3013 , G06F9/30145 , G06F9/30149 , G06F9/3016 , G06F9/30185 , G06F9/3877 , G06F9/3885 , G06F9/3887 , G06F9/3889 , G06F12/0811 , G06F12/084 , G06F12/0875 , G06F2212/452 , G06F2212/62
Abstract: 指令和逻辑提供向量压缩和旋转功能。对指定向量源、掩码、向量目的地和目的地偏移的指令做出响应,一些实施例读取所述掩码并且将相对应的未掩蔽向量元素从所述向量源拷贝到所述向量目的地中在所述向量目的地偏移单元处开始的相邻顺序单元。在一些实施例中,将来自所述向量源的未掩蔽向量元素拷贝到以所述向量目的地中的元素单元的总数量为模的相邻顺序元素单元。在一些可选实施例中,每当所述向量目的地为满时,就停止拷贝,并且在将未掩蔽向量元素从所述向量源拷贝到所述向量目的地中的相邻顺序元素单元时,将所述掩码中的相对应字段的值改变到掩蔽值。可选实施例使其中没有拷贝来自所述向量源的元素的向量目的地的元素归零。
-
-
-
-
-
-
-
-
-