-
公开(公告)号:CN113918882A
公开(公告)日:2022-01-11
申请号:CN202111239200.9
申请日:2021-10-25
Applicant: 北京大学
IPC: G06F17/16 , G06F40/284 , G06F40/58 , G06N3/02 , G06N3/08
Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。
-
公开(公告)号:CN113901747A
公开(公告)日:2022-01-07
申请号:CN202111197446.4
申请日:2021-10-14
Applicant: 北京大学
IPC: G06F30/331 , G06F17/16 , G06F15/78 , G06F7/523
Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。
-
公开(公告)号:CN113918882B
公开(公告)日:2024-11-29
申请号:CN202111239200.9
申请日:2021-10-25
Applicant: 北京大学
IPC: G06N3/0455 , G06F17/16 , G06F40/284 , G06F40/58 , G06N3/084
Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。
-
公开(公告)号:CN113901747B
公开(公告)日:2024-07-16
申请号:CN202111197446.4
申请日:2021-10-14
Applicant: 北京大学
IPC: G06F30/331 , G06F17/16 , G06F15/78 , G06F7/523
Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。
-
-
-