-
公开(公告)号:CN119940434A
公开(公告)日:2025-05-06
申请号:CN202510009132.9
申请日:2025-01-03
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于数据流架构加速器的注意力机制融合方法和装置,包括用于在GPDPU加速器上加速Attention计算的方法,该方法根据Attention中embedding的维度和输入序列长度的乘积来选择融合方案,对于维度较小的计算,通过预先传入转置数据的方式将所有操作融合在同一个核函数中,从而减少配置指令的时间和访存开销,对于维度较大的计算,将输入数据分块传入暂存数据缓存SPM的存储器中用于计算,将Attention的计算步骤融合为两个复用程度很高的核函数减少指令信息的配置时间。