-
公开(公告)号:CN119250208A
公开(公告)日:2025-01-03
申请号:CN202411499607.9
申请日:2024-10-25
Applicant: 北京工业大学
Abstract: 基于Versal ACAP的高效Transformer模型推理加速器部署方法属于软硬件协同加速数值计算领域。首先对模型进行负载分析,同时根据硬件性能,确定各部分硬件需要承担的算子种类及规模;之后再为硬件配备数据发送器、数据接收器、以及非线性算子等模块;然后将这些模块在硬件中合理地部署和连接,完成流水线并行化,实现多头注意力阶段与前馈神经网络阶段的计算;最后将两阶段整合,实现整个编码器/解码器层的加速计算,从而加速上层模型的推理速度。实验证明,本发明有效提高了模型的吞吐量,降低了推理延迟,同时此加速器在批量推理方面具有巨大的优势,在降低模型推理成本以及提升模型推理速度方面具有广阔应用前景。