-
公开(公告)号:CN110659144B
公开(公告)日:2022-01-07
申请号:CN201910863824.4
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明提供支持请求响应多端口异步多播的高吞吐混合仲裁路由方法,属于计算机体系结构与芯片微结构技术领域。该支持请求响应多端口异步多播的高吞吐混合仲裁路由方法包括如下步骤:S1:处理器发出的单FLIT请求/响应包在仲裁过程中,采用混合仲裁机制以得到第一预设单FLIT请求/响应包;S2:在路由接口协议中设计用以支持第一预设单FLIT请求/响应包的多播传输的多播机制,第一预设单FLIT请求/响应包在各输出端口异步传输,各个输出端口在整个多播未完成时处理在该输出端口的后续来包,同时输入端口更新多播信号,当所有目标输出端口传输完成后释放第一预设单FLIT请求/响应包。本发明中异步多播发送匹配混合仲裁机制,两者相结合提升吞吐率。
-
公开(公告)号:CN110716709B
公开(公告)日:2021-10-29
申请号:CN201910864339.9
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
IPC: G06F7/503
Abstract: 本发明提供支持进位借位正常传递的多精度大整数算术运算加速单元,属于计算机体系结构和处理器微结构技术领域。该支持进位借位正常传递的多精度大整数算术运算加速单元包括512位操作数A[511:0]、512位操作数B[511:0]、进位借位寄存器索引idx、进位借位寄存器、512位运算结果RSLT[511:0]、功能码opf和运算装置。本发明可以直接实现512位数据之间的加减运算,进位借位寄存器保存512位计算的进借位,便于扩展实现更高精度大整数之间的加减运算,还可以直接实现两组128位数据之间的乘法运算,配合移位加操作可扩展实现更高精度大整数之间的乘法运算。
-
公开(公告)号:CN110716887A
公开(公告)日:2020-01-21
申请号:CN201910857256.7
申请日:2019-09-11
Applicant: 无锡江南计算技术研究所
IPC: G06F12/0877
Abstract: 本发明包括下述步骤:S1、确定需要目标主存的主存数据行的地址信息,该地址信息由写暗示指令携带;S2、通过CPU向目标Cache发出写暗示指令,所述写暗示指令生成写暗示标记,并且将要携带的目标主存的主存数据行地址映射为目标Cache中的缓存行;S3、判断映射的目标Cache中对应的缓存行是否访问命中;S4、确定映射的目标Cache中对应的缓存行命中,则判断缓存行是否有效;S5、确定缓存行有效时,则将该缓存行淘汰回主存;S6、设置缓存行有效,并结束处理,后续对写暗示装入的缓存行进行访问时,按照正常的高速缓存访问方式进行。本发明通过在硬件高速缓存中直接占用缓存行,而不读取并装入对应的主存行,显著降低缓存行第一次访问主存的延迟。
-
公开(公告)号:CN115268837A
公开(公告)日:2022-11-01
申请号:CN202210966710.4
申请日:2022-08-12
Applicant: 无锡江南计算技术研究所
IPC: G06F7/53 , G06F7/509 , G06F3/06 , G06F9/445 , G06F12/0877
Abstract: 本发明涉及累加器缓冲技术领域,具体为一种累加器缓冲的数据累加卸载系统及方法。一种累加器缓冲的数据累加卸载系统,包括一累加器缓冲控制逻辑和多个累加器缓冲模块;每一所述累加器缓冲模块均包括一控制寄存器,与所述累加器缓冲控制逻辑电性连接,用于接收并暂存所述累加器缓冲控制逻辑发出的控制信号;一数据累加卸载子模块,与所述控制寄存器电性连接,包括缓冲本体,用于按缓冲条目先后顺序缓存累加结果;结果处理单元,与所述缓冲本体电性连接。本发明的实施例中,累加器缓冲模块能够一边通过缓冲本体对累加结果进行缓存,一边通过结果处理单元对缓冲本体中已缓存的累加结果进行卸载,有效提高了累加器缓冲的工作效率。
-
公开(公告)号:CN110716887B
公开(公告)日:2021-08-10
申请号:CN201910857256.7
申请日:2019-09-11
Applicant: 无锡江南计算技术研究所
IPC: G06F12/0877
Abstract: 本发明包括下述步骤:S1、确定需要目标主存的主存数据行的地址信息,该地址信息由写暗示指令携带;S2、通过CPU向目标Cache发出写暗示指令,所述写暗示指令生成写暗示标记,并且将要携带的目标主存的主存数据行地址映射为目标Cache中的缓存行;S3、判断映射的目标Cache中对应的缓存行是否访问命中;S4、确定映射的目标Cache中对应的缓存行命中,则判断缓存行是否有效;S5、确定缓存行有效时,则将该缓存行淘汰回主存;S6、设置缓存行有效,并结束处理,后续对写暗示装入的缓存行进行访问时,按照正常的高速缓存访问方式进行。本发明通过在硬件高速缓存中直接占用缓存行,而不读取并装入对应的主存行,显著降低缓存行第一次访问主存的延迟。
-
公开(公告)号:CN115344823A
公开(公告)日:2022-11-15
申请号:CN202211017041.2
申请日:2022-08-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种并行查找表实现具有饱和特性非线性函数求解的方法,涉及神经网络技术领域,包括将非线性函数分割成若干区间,每个区间内函数值由线性函数表示,其中线性函数系数存放在查找表内,查找表位于局部存储内,获得查找表的表内有符号偏移地址,计算出线性系数并写入查找表内;通过配置描述符实现非线性函数求解精度与求解范围的灵活可配,得到源操作数取值范围以及查找表深度;采用对源操作数范围进行平均分割的方法进行查找表地址转换,进行非线性函数求解。本发明以在兼顾资源消耗和计算速度情况下,进一步提高硬件求解非线性函数的精度,并且可以根据不同精度饱和函数进行求解运算。
-
公开(公告)号:CN115329939A
公开(公告)日:2022-11-11
申请号:CN202211017844.8
申请日:2022-08-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明提供一种支持多种不同精度运算的脉动阵列硬件实现方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:建立神经网络的阶段和运算配置相关联的关联表;S2:获取神经网络的阶段,从关联表中获取与该阶段对应的运算配置;S3:如果运算配置为混合精度浮点运算,则基于脉动阵列建立16*16bit+32bit定点/浮点运算模型,基于16*16bit+32bit定点/浮点运算模型进行混合精度浮点运算,如果运算配置为定点整形运算,则基于脉动阵列建立8*8bit+16bit定点运算模型,基于8*8bit+16bit定点运算模型进行定点整形运算。本发明充分挖掘降低精度的空间,提升处理吞吐率,提升脉动阵列运算性能,同时降低了不必要的硬件开销。
-
公开(公告)号:CN115328553A
公开(公告)日:2022-11-11
申请号:CN202211017025.3
申请日:2022-08-24
Applicant: 无锡江南计算技术研究所
IPC: G06F9/38
Abstract: 本发明公开了一种支持非线性函数扩展功能的并行查表方法及装置,涉及人工智能技术领域,包括:将非线性函数分割成若干区间,每个区间内函数值由线性函数表示,其中线性函数系数存放在查找表内,查找表位于局部存储内;进行多格式数据转换,根据函数种类指示符中的数据格式字段,针对输入源操作数的格式,进行展开并移位至预定小数点位置;获取上述数据放置规则,计算出并行查表的表内偏移地址;向量查询基地址和表内偏移地址相加,得到待访问元素的存放地址。本发明可以在普通单端口或双端口存储器上快速实现因变量到表内偏移的转化,并实现向量查表的方法,提升向量计算结构、通用寄存器等资源的利用率,从而优化流水线性能。
-
公开(公告)号:CN115269200A
公开(公告)日:2022-11-01
申请号:CN202210977978.8
申请日:2022-08-16
Applicant: 无锡江南计算技术研究所
Abstract: 本发明涉及计算机数据计算领域,具体处理器多核处理的加速方法。本发明是通过以下技术方案得以实现的:一种支持cache更新的一致性加速处理方法,包含如下步骤:S01、生产核心数据生产步骤;生产核心生产出批量数据;S02、完成通知即时发送步骤;所述生产核心给一致性串行点发送完成通知;S03、串行点取数据步骤;所述一致性串行点从所述生产核心处获得刚处理完的数据,且将数据转存到主存中,在转存结束之前,该生产核心不生产新的数据;S04、消费核心获得数据步骤。本发明的目的是提供一种支持cache更新的一致性加速处理方法,在保证cache一致性的基础上,解决一致性操作的延迟开销,避免生产核心的多任务竞争,减少数据处理的延迟,提升效率。
-
公开(公告)号:CN110716754A
公开(公告)日:2020-01-21
申请号:CN201910857060.8
申请日:2019-09-11
Applicant: 无锡江南计算技术研究所
IPC: G06F9/4401
Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO写访问信息依次转成IO写操作以发送至处理器内部IO寄存器进行写操作;响应处理模块,用于接收处理器内部IO寄存器返回的写响应信号并进行处理。一种高效的处理器数据加载方法,包括1)通过组包模块串行接收扫入数据,并将扫入数据组成由8个IO写访问信息串行拼接而成的IO写请求包。本申请通过组包模块和请求发送模块能够将所需加载数据进行批量长包扫描转IO写操作,使数据加载效率得到有效提高。
-
-
-
-
-
-
-
-
-