一种用于异构计算的融合算子设计方法和异构计算系统

    公开(公告)号:CN115374912A

    公开(公告)日:2022-11-22

    申请号:CN202211038174.8

    申请日:2022-08-29

    Abstract: 本发明涉及计算机数据计算领域,具体涉及到异构计算系统的设计。本发明是通过以下技术方案得以实现的:一种用于异构计算的融合算子设计方法,包含如下步骤:S01、归一化算子划分步骤;在该步骤中,将归一化算子划分成和计算算子与线性缩放算子两个算子,S02、算子融合步骤;依次将所述线性缩放算子、激活算子、卷积算子、所述和计算算子组成一个融合算子。本发明的目的是提供一种用于异构计算的融合算子设计方法和异构计算系统,在保证操作的正确性和操作种类不变的情况下,对算子的融合方式进行全新的设计和拆分,使得大量计算过程的数据交互均在片上进行,优化数据交互的带宽使用效率。

    一种张量、向量、标量计算加速和数据调度系统

    公开(公告)号:CN115169541A

    公开(公告)日:2022-10-11

    申请号:CN202210986917.8

    申请日:2022-08-17

    Abstract: 一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;多端口本地数据存储单元:用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信;在线远程存储访问单元:用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。

    支持请求响应多端口异步多播的高吞吐混合仲裁路由机制

    公开(公告)号:CN110659144A

    公开(公告)日:2020-01-07

    申请号:CN201910863824.4

    申请日:2019-09-12

    Abstract: 本发明提供支持请求响应多端口异步多播的高吞吐混合仲裁路由机制,属于计算机体系结构与芯片微结构技术领域。该支持请求响应多端口异步多播的高吞吐混合仲裁路由机制包括如下步骤:S1:处理器发出的单FLIT请求/响应包在仲裁过程中,采用2+x级的混合仲裁机制以得到第一预设单FLIT请求/响应包;S2:在路由接口协议中设计用以支持第一预设单FLIT请求/响应包的多播传输的多播机制,第一预设单FLIT请求/响应包在各输出端口异步传输,各个输出端口在整个多播未完成时处理在该输出端口的后续来包,同时输入端口更新多播信号,当所有目标输出端口传输完成后释放第一预设单FLIT请求/响应包。本发明中异步多播发送匹配混合仲裁机制,两者相结合提升吞吐率。

    一种并行查找表实现具有饱和特性非线性函数求解的方法

    公开(公告)号:CN115344823A

    公开(公告)日:2022-11-15

    申请号:CN202211017041.2

    申请日:2022-08-24

    Abstract: 本发明公开了一种并行查找表实现具有饱和特性非线性函数求解的方法,涉及神经网络技术领域,包括将非线性函数分割成若干区间,每个区间内函数值由线性函数表示,其中线性函数系数存放在查找表内,查找表位于局部存储内,获得查找表的表内有符号偏移地址,计算出线性系数并写入查找表内;通过配置描述符实现非线性函数求解精度与求解范围的灵活可配,得到源操作数取值范围以及查找表深度;采用对源操作数范围进行平均分割的方法进行查找表地址转换,进行非线性函数求解。本发明以在兼顾资源消耗和计算速度情况下,进一步提高硬件求解非线性函数的精度,并且可以根据不同精度饱和函数进行求解运算。

    一种支持处理功能扩展的指令构建方法及装置

    公开(公告)号:CN115269010A

    公开(公告)日:2022-11-01

    申请号:CN202210966719.5

    申请日:2022-08-12

    Abstract: 本发明提供一种支持处理功能扩展的指令构建方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:从处理器中获取目标源操作数;S2:将目标功能描述符存储于目标源操作数;S3:控制加速器对目标源操作数中的目标功能描述符进行解析获取目标指令功能。本发明将目标功能描述符存储在目标源操作数中,实现描述指令功能,由加速器对输入的功能描述符进行解析来识别指令功能,因此可以在不扩展指令长度的前提下进一步扩展指令的功能。

    一种用于脉动阵列的数据调度方法

    公开(公告)号:CN115237603A

    公开(公告)日:2022-10-25

    申请号:CN202211038909.7

    申请日:2022-08-29

    Abstract: 一种用于脉动阵列的数据调度方法,属于神经网络技术领域。本发明包括:步骤1,令待卷积/待矩阵乘的数据A分布在m个核心上;步骤2,将数据B广播给m个核心,m个核心每轮得到相同的b进行计算;步骤3,当每个核心上的分布式数据A与所有的b计算完成,将结果写回主存;步骤4,重复步骤1‑3进行数据A下一部分的计算。本发明能够有效提升片上数据的复用次数,降低带宽需求,可以有效提升硬件加速器性能。

    一种面向多请求来源的DDR4性能平衡调度结构及方法

    公开(公告)号:CN110716797A

    公开(公告)日:2020-01-21

    申请号:CN201910852485.X

    申请日:2019-09-10

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种面向多请求来源的DDR4性能平衡调度结构及方法。一种面向多请求来源的DDR4性能平衡调度结构,包括多个访存请求调度缓冲,用于提高对应访存请求来源的访存带宽;多来源的连续仲裁部件,用于选择出一个访存请求进行发射;DDR4存储器件,用于接收多来源的连续仲裁部件发射的访存请求。一种面向多请求来源的DDR4性能平衡调度方法,包括L1.对每个访存请求来源的访存请求均设置一个访存请求调度缓冲;L2.多来源的连续仲裁部件通过仲裁策略选择出一个访存请求进行发射。本申请面向多请求来源分别设置多个访存请求调度缓冲,能够在提高访存带宽的同时,减少对访存延迟的影响,提高了系统的综合访存性能。

Patent Agency Ranking