一种超长点数高性能FFT计算装置

    公开(公告)号:CN112163187B

    公开(公告)日:2023-07-07

    申请号:CN202011290004.X

    申请日:2020-11-18

    Abstract: 本发明涉及数字信号处理领域,具体涉及一种超长点数超高性能FFT计算装置。本发明通过以下技术方案得以实现的:一种超长点数超高性能FFT计算装置,包含FFT计算模块和控制单元,所述FFT计算模块数量为两个,分别为计算模块一和计算模块二;还包含两个三维转置存储器和二维转置存储器;三维转置存储器一的数据输入端连接主存,数据输出端连接计算模块一;所述二维转置存储器的数据输入端连接所述计算模块一,数据输出端连接所述计算模块二。本发明的目的是提供一种超长点数超高性能FFT计算装置,通过全新的数据转置处理方式,增加数据平滑性,使得FFT数据处理过程中数据带宽利用率高,大大增加处理效率。

    一种支持分区并发访问的软硬件协同存储器组织方法及装置

    公开(公告)号:CN115357195A

    公开(公告)日:2022-11-18

    申请号:CN202211059381.1

    申请日:2022-08-31

    Abstract: 本发明提供一种支持分区并发访问的软硬件协同存储器组织方法及装置方法及装置,属于存储器设计技术领域。该方法包括如下步骤:S1:将存储器基于预设区分方式从逻辑上划分为地址连续的多个可独立访问的存储体;S2:获取来自多个计算单元/请求源发送的多个请求信息,基于请求信息和逻辑划分模式匹配对应的存储体,将每个请求信息分别发送至对应的存储体;S3:接收对应的计算单元/请求源的请求信息,基于请求信息和逻辑划分模式获取该计算单元/请求源相匹配的存储体,将该存储体的访存请求数据发送至对应的计算单元/请求源。本发明只需配备开销较小的存储访问模块和数据选择模块即可实现高并行度的访问处理,设计复杂度低,实现开销小。

    多深度缓冲激活重发方法及装置

    公开(公告)号:CN113900816A

    公开(公告)日:2022-01-07

    申请号:CN202111201772.8

    申请日:2021-10-15

    Abstract: 本发明实施例提供一种多深度缓冲激活重发方法及装置,所述方法包括:高速缓冲存储器接收到访存请求,获取访存请求的请求地址,根据请求地址判断访存请求是否命中;未命中则发送访存请求进入脱靶缓冲,并设置第一重发标识位;高速缓冲存储器接收到后续未命中请求时,获取后续未命中请求后续地址,与请求地址进行地址相关性判断;当不相关时,发送后续未命中请求进入脱靶缓冲,设置第二重发标识位;检测到脱靶缓冲中的访存请求和后续未命中请求完成从主存装载后,通过激活重发步骤,对脱靶缓冲中的访存请求进行重发。采用本方法能够支持访存请求的乱序发射和乱序完成,同时保证脱靶请求重发后的正确性,从而提高数据Cache的性能和效率。

    一种支持写暗示的硬件高速缓存数据装入方法

    公开(公告)号:CN110716887B

    公开(公告)日:2021-08-10

    申请号:CN201910857256.7

    申请日:2019-09-11

    Abstract: 本发明包括下述步骤:S1、确定需要目标主存的主存数据行的地址信息,该地址信息由写暗示指令携带;S2、通过CPU向目标Cache发出写暗示指令,所述写暗示指令生成写暗示标记,并且将要携带的目标主存的主存数据行地址映射为目标Cache中的缓存行;S3、判断映射的目标Cache中对应的缓存行是否访问命中;S4、确定映射的目标Cache中对应的缓存行命中,则判断缓存行是否有效;S5、确定缓存行有效时,则将该缓存行淘汰回主存;S6、设置缓存行有效,并结束处理,后续对写暗示装入的缓存行进行访问时,按照正常的高速缓存访问方式进行。本发明通过在硬件高速缓存中直接占用缓存行,而不读取并装入对应的主存行,显著降低缓存行第一次访问主存的延迟。

    一种处理器阵列局部存储混合管理方法

    公开(公告)号:CN110704362B

    公开(公告)日:2021-03-12

    申请号:CN201910864444.2

    申请日:2019-09-12

    Abstract: 本发明提供一种处理器阵列局部存储混合管理技术,属于计算机体系结构和处理器微结构技术领域。该处理器阵列局部存储混合管理技术包括如下步骤:S1:将阵列处理器中每个核心的片上局部存储(LDM)被划分为第一类区域、第二类区域和第三类区域;S2:将第一类区域设定为用以保存本地私有数据、其具体编址仅对本核心的应用程序可见的私有存储空间;S3:将第二类区域设定为用以保存多个核心的共享数据、其具体编址对多个核心的应用程序可见的共享存储空间;S4:将第三类区域设定为用以映射到整个主存空间、采用Cache的方式管理以使本核心的应用程序对可Cache空间的访问可见的Cache存储空间。本发明针对应用特征进行灵活配置,高效发挥应用的实际运行性能。

    面向众核处理器访存和片内通信的数据传输方法与装置

    公开(公告)号:CN110704343B

    公开(公告)日:2021-01-05

    申请号:CN201910852824.4

    申请日:2019-09-10

    Abstract: 本发明提供面向众核处理器访存和片内通信的数据传输方法与装置,属于计算机体系结构与处理器微结构领域。该面向众核处理器访存和片内通信的数据传输方法与装置包括如下步骤:S1:通道指令缓冲单元获取1或多个源核心处理器发出的通道指令;S2:从通道指令缓冲单元内抽取DMA通道指令或者RMA通道指令;S3:从DMA通道指令中解析DMA微访问,并将DMA微访问发送至内存,从RMA通道指令中解析RMA微访问发送至目标核心处理器中;S4:获取内存返回的应答或者目标核心处理器返回的应答后发起回答字操作。本发明减少了硬件逻辑开销,实现高效的实现片内数据复用,提升众核处理器的计算能力。

    用于具有多个处理器核心的处理器系统的同步器

    公开(公告)号:CN102880585B

    公开(公告)日:2015-05-06

    申请号:CN201210370444.5

    申请日:2012-09-28

    Abstract: 一种用于具有多个处理器核心的处理器系统的同步器包括:同步向量表、同步处理部件、断连分析处理部件、以及死锁检查部件。同步向量表由多个条目组成,分别用于接收并对应保存来自多个处理器核心的当前待同步位图请求信息。同步处理部件用于通过查询同步向量表来对同步向量表中的情况进行分析和处理,从而在待同步处理器核心均符合同步要求时向处理器核心返回同步完成信号。断连分析处理部件用于接收降级指示信号,并且根据降级指示信号将同步器设置为降级同步模式或者非降级同步模式;断连分析处理部件用于接收断连位信号,根据断连位信号更改同步向量表,从而实现在位处理器核心与降级断连处理器核心的同步功能。

    读-修改-写处理系统及方法

    公开(公告)号:CN101989241A

    公开(公告)日:2011-03-23

    申请号:CN200910165363.X

    申请日:2009-08-07

    Abstract: 一种读-修改-写处理系统及方法。所述读-修改-写处理系统通过子命令生成单元,使得任一时刻读-修改-写处理系统可以并行处理多个“读-修改-写”命令。以同类型命令优先通过的方式对所获得的内存操作命令进行仲裁,使得同一类型的命令可以得到优先通过,并随即处理。所述读-修改-写处理系统及方法可以避开“对于同一激活行的读写访问之间存在的时间间隔较大”这一问题对访存性能的影响,并可以减少数据总线的读写方向切换次数,从而提高了访存带宽。

    一种支持并发处理多个计算加速引擎的异步计算方法及装置

    公开(公告)号:CN115269013A

    公开(公告)日:2022-11-01

    申请号:CN202210966615.4

    申请日:2022-08-12

    Abstract: 本发明提供一种支持并发处理多个计算加速引擎的异步计算方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:在加速核心内部集成多个用以处理不同的加速需求的异步计算引擎;S2:控制主流水线接收异步计算指令并基于异步计算指令获取异步计算请求;S3:基于异步计算请求从多个异步计算引擎中获取目标异步计算引擎,控制目标异步计算引擎进行异步计算处理得到处理结果,将处理结果存储在局部数据存储器中;S4:控制局部数据存储器和主流水线进行数据交互以将处理结果交互至主流水线。本发明可以支持一个或多个异步计算加速引擎,以应对应用中不同的加速需求,因此具有一定的灵活性和扩展性。

    一种无横向一致性的众核精简Cache协议实现方法

    公开(公告)号:CN114217809A

    公开(公告)日:2022-03-22

    申请号:CN202110398338.7

    申请日:2021-04-14

    Abstract: 本发明公开一种无横向一致性的众核精简Cache协议实现方法,包括以下步骤:S1、对Cache行内数据更新情况进行分析,标记出被更新的数据;S2、如果Cache行内所有数据都没有被更新,或者Cache行内所有数据都被更新,跳转至S5,如果Cache行内只有部分数据被更新,跳转至S3;S3、当一个Cache行内的数据只有部分内容需要写回时,其他位掩码置0;S4、根据掩码粒度大小与置位情况,更新主存中对应掩码位为1的数据;S5、直接对Cache行进行写回操作。本发明有效解决共享主存Cache结构的假共享问题,还可以提高写回效率、有效降低处理器在Cache数据管理方面的硬件开销。

Patent Agency Ranking