-
公开(公告)号:CN113901746A
公开(公告)日:2022-01-07
申请号:CN202111175556.0
申请日:2021-10-09
Applicant: 北京大学
IPC: G06F30/331 , G06F15/78
Abstract: 本发明公布了一种用于向量代数的硬件加速器的设计方法,通过对输入到硬件加速器的硬件数据流进行形式化分析,生成硬件加速器在空间上的拓扑结构,以及硬件加速器的片上存储的数据映射和访问序列;并使用预定义的硬件代码模板生成加速器硬件电路代码,为不同的向量运算统一生成硬件加速器,提升硬件加速器设计效率。
-
公开(公告)号:CN113918882B
公开(公告)日:2024-11-29
申请号:CN202111239200.9
申请日:2021-10-25
Applicant: 北京大学
IPC: G06N3/0455 , G06F17/16 , G06F40/284 , G06F40/58 , G06N3/084
Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。
-
公开(公告)号:CN113901747B
公开(公告)日:2024-07-16
申请号:CN202111197446.4
申请日:2021-10-14
Applicant: 北京大学
IPC: G06F30/331 , G06F17/16 , G06F15/78 , G06F7/523
Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。
-
公开(公告)号:CN113901746B
公开(公告)日:2024-06-18
申请号:CN202111175556.0
申请日:2021-10-09
Applicant: 北京大学
IPC: G06F30/331 , G06F15/78
Abstract: 本发明公布了一种用于向量代数的硬件加速器的设计方法,通过对输入到硬件加速器的硬件数据流进行形式化分析,生成硬件加速器在空间上的拓扑结构,以及硬件加速器的片上存储的数据映射和访问序列;并使用预定义的硬件代码模板生成加速器硬件电路代码,为不同的向量运算统一生成硬件加速器,提升硬件加速器设计效率。
-
公开(公告)号:CN113918882A
公开(公告)日:2022-01-11
申请号:CN202111239200.9
申请日:2021-10-25
Applicant: 北京大学
IPC: G06F17/16 , G06F40/284 , G06F40/58 , G06N3/02 , G06N3/08
Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。
-
公开(公告)号:CN113901747A
公开(公告)日:2022-01-07
申请号:CN202111197446.4
申请日:2021-10-14
Applicant: 北京大学
IPC: G06F30/331 , G06F17/16 , G06F15/78 , G06F7/523
Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。
-
公开(公告)号:CN117131813A
公开(公告)日:2023-11-28
申请号:CN202310967153.2
申请日:2023-08-02
Applicant: 北京大学
IPC: G06F30/31 , G06F115/10
Abstract: 本发明公布了一种FPGA平台桥接HLS技术和硬件构造的芯片设计方法,将高层次综合HLS技术使用的高级语言功能集成到寄存器传输级别的硬件编程中,设计嵌入在硬件构造语言中的编程接口库,提供高级控制语句描述硬件的控制行为,并与硬件构造语言支持的硬件数据通路描述结合,支持硬件描述功能;再根据高层次控制描述实现有限状态机的自动生成。本发明可应用于加速器敏捷设计,针对新的加速应用设计面向现场可编程门阵列的加速器,可获得与高层次综合技术相当的生产力,且保留低层次硬件设计方法的通用表示能力和性能潜力,实现快速高效的硬件设计,并部署在现场可编程门阵列FPGA上,实现敏捷的硬件加速。
-
公开(公告)号:CN116579274A
公开(公告)日:2023-08-11
申请号:CN202310469338.0
申请日:2023-04-27
Applicant: 北京大学
Abstract: 本发明公布了一种张量运算加速芯片的自动设计方法,通过提出了两种新的中间表示形式,数据通路和数据访存,将芯片设计中的中间表示形式(数据流)分解为数据通路和数据访存,基于数据通路和数据访存,实现张量运算加速芯片的自动设计,对芯片硬件的底层细节进行暴露,排除低效的芯片设计选择,从而提升了芯片设计自动探索效率,有效实现芯片设计中数据流的自动探索与硬件生成。
-
-
-
-
-
-
-