基于多层中间表示的芯片硬件综合方法

    公开(公告)号:CN117725862A

    公开(公告)日:2024-03-19

    申请号:CN202311771826.3

    申请日:2023-12-21

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于多层中间表示的芯片硬件综合方法,设计多级中间表示系统Hector,Hector采用高低两个级别的中间表示IR:分别为拓扑表示ToR IR和混合弹性模块HEC IR;Hector的高层中间表示ToR IR设计时间图用于表示运算调度;时间图即保留高层次控制逻辑的状态转移图;调度包括由状态机控制的静态运行、流水线运行和基于握手信号控制依赖的动态运行;Hector的底层中间表示HEC IR对硬件模块进行显式实例化,将运算分配具体的计算单元;通过实现时间图转化、ToR到HEC的降级、产生可综合的Chisel代码,最终生成Verilog硬件描述语言代码,生成包括控制器的硬件。本发明能够提高硬件设计的生产率。

    用于GPU寄存器分配和并行度管理的协同优化编译方法

    公开(公告)号:CN106648546A

    公开(公告)日:2017-05-10

    申请号:CN201610805632.4

    申请日:2016-09-07

    Applicant: 北京大学

    Inventor: 梁云 谢小龙

    CPC classification number: G06F9/30138 G06F9/3877 G06F9/5044

    Abstract: 本发明公布了一种协同优化编译方法,所述方法用于GPU寄存器分配和并行度管理协同优化的编译,使得寄存器的分配和并行度管理的优化同时进行,且不引起缓存的竞争;包括:收集寄存器分配参数、线程级并行参数和缓存性能参数;列出所有可能的线程块数量TLP和寄存器数量Reg的组合;删除导致缓存竞争的组合和导致寄存器浪费的组合;对剩下的组合进行寄存器分配;使用性能模型进行预测并选择性能最佳的组合,作为寄存器分配编译的结果。本发明技术方案可在不引起缓存竞争的前提下,最大化寄存器的使用率,最终提升整个程序的性能。

    一种用于向量代数的硬件加速器的设计方法

    公开(公告)号:CN113901746B

    公开(公告)日:2024-06-18

    申请号:CN202111175556.0

    申请日:2021-10-09

    Applicant: 北京大学

    Abstract: 本发明公布了一种用于向量代数的硬件加速器的设计方法,通过对输入到硬件加速器的硬件数据流进行形式化分析,生成硬件加速器在空间上的拓扑结构,以及硬件加速器的片上存储的数据映射和访问序列;并使用预定义的硬件代码模板生成加速器硬件电路代码,为不同的向量运算统一生成硬件加速器,提升硬件加速器设计效率。

    用于硬件加速器的存储—计算模块互联电路自动设计方法

    公开(公告)号:CN114462340B

    公开(公告)日:2022-07-01

    申请号:CN202210379803.7

    申请日:2022-04-12

    Applicant: 北京大学

    Inventor: 梁云 贾连成

    Abstract: 本发明公布了一种用于硬件加速器的存储—计算模块互联电路自动设计方法,通过时空变换STT对数据在硬件加速器存储模块中的预期行为进行分析,对存储模块中的数据重用进行计算并分类,进一步自动选择最优存储‑计算模块互联电路方式并实现组播互联或旋转互联。本发明能够有效的提升硬件存储—计算模块的互联效率,减少了对存储资源的消耗。

    可硬件实现的动态稀疏注意力机制的数据处理加速方法

    公开(公告)号:CN113918882A

    公开(公告)日:2022-01-11

    申请号:CN202111239200.9

    申请日:2021-10-25

    Applicant: 北京大学

    Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。

    一种可配置稀疏注意力机制的硬件加速器

    公开(公告)号:CN113901747A

    公开(公告)日:2022-01-07

    申请号:CN202111197446.4

    申请日:2021-10-14

    Applicant: 北京大学

    Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。

    一种用于小型设备的基于细粒度调度的深度学习模型内存优化方法

    公开(公告)号:CN118916167A

    公开(公告)日:2024-11-08

    申请号:CN202411069656.9

    申请日:2024-08-06

    Applicant: 北京大学

    Inventor: 梁云 陈仁泽

    Abstract: 本发明一种用于嵌入式设备的基于细粒度调度的深度学习模型内存优化方法,属于深度学习模型领域。本发明输入深度学习模型DNN到分析器,分析器根据DNN中各个算子的TE分析该算子及其所依赖的算子的循环轴的连接关系,输出轴连接图ACG给优化器;优化器根据ACG搜索对DNN的切分方案,将DNN转换为细粒度的DNN,并对其进行调度;将细粒度DNN及其调度交给模拟器评估其内存占用,通过测量器获得其执行性能,将内存和性能数据反馈给优化器进行迭代搜索,以得到最优的细粒度DNN及其调度,据此生成DNN的执行代码,并编译部署在目标设备上。本发明在不超过5%的性能开销的前提下,能够显著优化众多流行深度神经网络DNN运行时的内存需求,拓宽了DNN在小型设备上的应用范围。

    FPGA平台桥接HLS技术和硬件构造的芯片设计方法

    公开(公告)号:CN117131813A

    公开(公告)日:2023-11-28

    申请号:CN202310967153.2

    申请日:2023-08-02

    Applicant: 北京大学

    Abstract: 本发明公布了一种FPGA平台桥接HLS技术和硬件构造的芯片设计方法,将高层次综合HLS技术使用的高级语言功能集成到寄存器传输级别的硬件编程中,设计嵌入在硬件构造语言中的编程接口库,提供高级控制语句描述硬件的控制行为,并与硬件构造语言支持的硬件数据通路描述结合,支持硬件描述功能;再根据高层次控制描述实现有限状态机的自动生成。本发明可应用于加速器敏捷设计,针对新的加速应用设计面向现场可编程门阵列的加速器,可获得与高层次综合技术相当的生产力,且保留低层次硬件设计方法的通用表示能力和性能潜力,实现快速高效的硬件设计,并部署在现场可编程门阵列FPGA上,实现敏捷的硬件加速。

    一种张量运算加速芯片的自动设计方法

    公开(公告)号:CN116579274A

    公开(公告)日:2023-08-11

    申请号:CN202310469338.0

    申请日:2023-04-27

    Applicant: 北京大学

    Inventor: 梁云 罗梓璋

    Abstract: 本发明公布了一种张量运算加速芯片的自动设计方法,通过提出了两种新的中间表示形式,数据通路和数据访存,将芯片设计中的中间表示形式(数据流)分解为数据通路和数据访存,基于数据通路和数据访存,实现张量运算加速芯片的自动设计,对芯片硬件的底层细节进行暴露,排除低效的芯片设计选择,从而提升了芯片设计自动探索效率,有效实现芯片设计中数据流的自动探索与硬件生成。

    一种深度神经网络硬件加速器装置

    公开(公告)号:CN116451752A

    公开(公告)日:2023-07-18

    申请号:CN202310229718.7

    申请日:2023-03-10

    Applicant: 北京大学

    Inventor: 梁云 贾连成

    Abstract: 本发明公布了一种深度神经网络硬件加速器装置,包括:矩阵计算核心模块、向量计算核心模块、片上缓存模块、直接内存访问(DMA)数据传输控制器模块和可配置互联网络模块;其中,矩阵计算核心模块和向量计算核心模块支持不同的可重构选项;矩阵计算核心模块和向量计算核心模块通过可配置互联网络模块,与多个片上缓存模块进行连接;可重构选项包括权重固定数据流和输出固定数据流;重构方式包括可重构数据流加速器(RDA)、可重构功能加速器(RFA)以及异构多数据流加速器(HDA)。本发明能够同时实现多种重构方式,实现对不同DNN网络的高效处理。

Patent Agency Ranking