一种基于Transformer模型的高能效多样化硬件集成计算架构及方法

    公开(公告)号:CN118690788B

    公开(公告)日:2025-05-13

    申请号:CN202410770715.9

    申请日:2024-06-14

    Abstract: 本发明公开了一种基于Transformer模型的高能效多样化硬件集成计算架构及方法,其中硬件集成计算架构包括AI引擎资源和可编程逻辑资源两部分;AI引擎资源中部署有AI引擎专用数据读取内核、AI引擎乘法模块、AIE‑QK乘法模块、AIE‑SV乘法模块、AIE‑FC乘法模块、AIE‑FC2乘法模块、AIE‑FC3乘法模块;可编程逻辑资源中部署有PL前置归一化内核、PL矩阵信息聚合内核、PL‑除法内核、PL‑SoftMax内核、PL前置残差内核、PL后置归一化内核、PL后置残差内核、PL数据写操作内核。本发明的计算架构在Transformer模型推理计算中展现出显著的性能优势,且减少了潜在的兼容性和接口问题,从而提高了系统的稳定性和可靠性,可广泛应用于图像处理技术领域。

    一种基于Transformer模型的高能效多样化硬件集成计算架构及方法

    公开(公告)号:CN118690788A

    公开(公告)日:2024-09-24

    申请号:CN202410770715.9

    申请日:2024-06-14

    Abstract: 本发明公开了一种基于Transformer模型的高能效多样化硬件集成计算架构及方法,其中硬件集成计算架构包括AI引擎资源和可编程逻辑资源两部分;AI引擎资源中部署有AI引擎专用数据读取内核、AI引擎乘法模块、AIE‑QK乘法模块、AIE‑SV乘法模块、AIE‑FC乘法模块、AIE‑FC2乘法模块、AIE‑FC3乘法模块;可编程逻辑资源中部署有PL前置归一化内核、PL矩阵信息聚合内核、PL‑除法内核、PL‑SoftMax内核、PL前置残差内核、PL后置归一化内核、PL后置残差内核、PL数据写操作内核。本发明的计算架构在Transformer模型推理计算中展现出显著的性能优势,且减少了潜在的兼容性和接口问题,从而提高了系统的稳定性和可靠性,可广泛应用于图像处理技术领域。

    基于FPGA中高性能计算架构的通用定点矩阵乘法器的实现方法、装置及介质

    公开(公告)号:CN118690115A

    公开(公告)日:2024-09-24

    申请号:CN202410783729.4

    申请日:2024-06-18

    Abstract: 本发明公开了一种基于FPGA中高性能计算架构的通用定点矩阵乘法器的实现方法、装置及介质,其中方法包括:基于Versal ACAP平台的AI引擎阵列资源的并行性,设计不同层次的矩阵分块策略;基于AI引擎和AXI流的数据包流和数据包交换的数据调度和复用,通过矩阵分块乘法加速内核,设计数据调度和复用策略;在AI引擎向量处理器上实现高吞吐量向量化的矩阵乘法运算的流水线。本发明基于Versal ACAP平台的AXI流传输协议和AI引擎阵列实现了矩阵乘法的多层次分块,使矩阵乘法可以高效利用硬件资源有效提高数据复用率并且实现较高的并行度,在AI引擎的高速时钟下实现较高的运算速度。本发明可广泛应用于高性能计算领域。

Patent Agency Ranking