可硬件实现的动态稀疏注意力机制的数据处理加速方法

    公开(公告)号:CN113918882B

    公开(公告)日:2024-11-29

    申请号:CN202111239200.9

    申请日:2021-10-25

    Applicant: 北京大学

    Abstract: 本发明公布了一种可硬件实现的动态稀疏注意力机制的数据处理加速方法,对以序列数据作为输入的注意力机制模型进行优化,将应用数据进行序列化得到序列数据和相应的查询矩阵Q,键矩阵K与值矩阵V;对查询矩阵Q与键矩阵K计算低比特分数矩阵;进行二值化得到掩模,作为对注意力机制动态稀疏性的预测;对注意力掩模进行分块打包,得到固定大小且稀疏性均匀的结构化掩模块,均匀的稀疏性在硬件上取得好的负载均衡,从而提升硬件计算资源的利用率;再使用输入到动态稀疏注意力机制模型的矩阵Q、K、V和掩模块,通过执行动态稀疏注意力机制实现基于稀疏注意力机制的数据处理加速。

    一种可配置稀疏注意力机制的硬件加速器

    公开(公告)号:CN113901747B

    公开(公告)日:2024-07-16

    申请号:CN202111197446.4

    申请日:2021-10-14

    Applicant: 北京大学

    Abstract: 本发明公布了一种可配置稀疏注意力机制的硬件加速器,包括:样本化稠密矩阵乘法运算模块、掩模分块打包模块和可配置稀疏矩阵乘法运算模块;样本化稠密矩阵乘法运算模块采用脉动阵列的硬件结构;掩模分块打包模块包括列号计数器,行激活单元计数器以及缓冲区;可配置稀疏矩阵乘法运算模块包括可配置运算单元PE、寄存器阵列和除法器,可配置运算单元与寄存器阵列分离。本发明根据输入矩阵的特性,高效动态地决定分数矩阵的稀疏模式,在较高的稀疏度下,仍然可以保持较高的流通量,能够高效地、动态地加速稀疏注意力机制的运算。

    一种面向微控制器的循环内存管理方法

    公开(公告)号:CN117931688A

    公开(公告)日:2024-04-26

    申请号:CN202410023984.9

    申请日:2024-01-08

    Applicant: 北京大学

    Inventor: 梁云 郑思泽

    Abstract: 本发明公开一种面向微控制器的循环内存管理方法,属于在微控制器上部署深度学习算法领域。本发明将物理内存抽象为以数据元素为单位的虚拟循环内存,并通过设置DNN算子输入和输出张量在虚拟内存的首地址位置、计算顺序、指针移动细节实现输入和输出共享同一份物理内存且计算正确性不变。利用本发明提供的方法,可以在不影响DNN计算准确性的情况下进一步节约运行所需的内存,将更多的DNN模型部署在内存空间有限的MCU上。

    一种面向异构平台的张量计算数据流映射方法

    公开(公告)号:CN117687813A

    公开(公告)日:2024-03-12

    申请号:CN202410010418.4

    申请日:2024-01-04

    Applicant: 北京大学

    Inventor: 梁云 郝晓辰

    Abstract: 本发明提供一种面向异构平台的张量计算数据流映射方法,属于计算机领域。本发明首先将计算数据流映射至硬件的计算单元,具体包括分析数据依赖的复用距离与活跃变量个数,以分配最少的寄存器;匹配计算模式并进行改写,在FPGA上生成流水线化的脉动阵列,而在GPU上将计算分配至向量计算单元。随后,将访存数据流映射至硬件的缓存层次结构,具体包括识别复用循环并将其移除。在FPGA上,生成独立的执行内核,内核之间通过先入先出队列(FIFO)进行通信,并生成有限状态自动机以管理双缓存。在GPU上,分配存储空间并生成相应的访存指令与数据搬移指令,以双缓存的方式掩盖访存延时。采用本发明可以大幅提升异构系统的编程效率。

    一种通用图形处理器多任务并发执行的任务派发方法

    公开(公告)号:CN105653243B

    公开(公告)日:2018-03-30

    申请号:CN201510977450.0

    申请日:2015-12-23

    Applicant: 北京大学

    Inventor: 梁云 李秀红

    Abstract: 本发明公布了一种通用图形处理器多任务并发执行的任务派发方法,通过线程块派发引擎方法首先将核函数进行分类,然后根据核函数分类计算得到向一个流处理器分别派发的核函数的线程块数目,将不同核函数相应数目的线程块派发到同一个流多处理器中,以达到提高通用图形处理器中每个流多处理器资源的利用率,提升系统性能和能效比的目的。本发明还可进一步利用一种一级数据缓存旁路方法,该方法首先通过动态方法来确定旁路哪一个核函数的线程块,根据相应核函数的旁路的线程块的数目进行旁路,以达到减轻一级数据缓存的压力、进一步提高性能的目的。

    一种通用图形处理器多任务并发执行的任务派发方法

    公开(公告)号:CN105653243A

    公开(公告)日:2016-06-08

    申请号:CN201510977450.0

    申请日:2015-12-23

    Applicant: 北京大学

    Inventor: 梁云 李秀红

    CPC classification number: G06F9/3836 G06T1/00

    Abstract: 本发明公布了一种通用图形处理器多任务并发执行的任务派发方法,通过线程块派发引擎方法首先将核函数进行分类,然后根据核函数分类计算得到向一个流处理器分别派发的核函数的线程块数目,将不同核函数相应数目的线程块派发到同一个流多处理器中,以达到提高通用图形处理器中每个流多处理器资源的利用率,提升系统性能和能效比的目的。本发明还可进一步利用一种一级数据缓存旁路方法,该方法首先通过动态方法来确定旁路哪一个核函数的线程块,根据相应核函数的旁路的线程块的数目进行旁路,以达到减轻一级数据缓存的压力、进一步提高性能的目的。

    基于图神经网络模型的组合逻辑电路等价性判定方法

    公开(公告)号:CN117150920A

    公开(公告)日:2023-12-01

    申请号:CN202311165438.0

    申请日:2023-09-11

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于图神经网络模型的组合逻辑电路等价性判定方法,设计问题实例的编码方案,提取求解器中的关键可配置参数,并基于图神经网络模型构建求解器预测网络,求解器预测网络对电路的结构和逻辑特征进行自动提取,为问题实例选取最优的求解器。本发明基于图神经网络构建逻辑等价性验证工具,用户在无需了解任何求解器实现细节的情况下,可以通过本发明提出的方法构建多求解器组合,利用不同求解器的特性对不同组合逻辑电路的逻辑等价性进行高效判定。

    一种用于可重构深度神经网络加速器的指令集装置

    公开(公告)号:CN116431214A

    公开(公告)日:2023-07-14

    申请号:CN202310334605.3

    申请日:2023-03-31

    Applicant: 北京大学

    Inventor: 梁云 贾连成

    Abstract: 本发明公布了一种用于可重构深度神经网络加速器的指令集装置,可重构深度神经网络加速器包括一个指令控制器和多个硬件模块,硬件模块包括输入输出模块、矩阵计算模块和向量计算模块;采用微内核编程范式提供多层次的硬件配置;将深度神经网络加速器的计算任务编译成多个微内核,每个微内核编码为多条硬件指令;每条硬件指令用于特定计算或数据移动操作的模块硬件配置控制和时间层面配置控制;每条硬件指令包括的字段:指令类型、模块类型、配置地址、依赖关系标志和模块配置内容。本发明通过使用硬件指令表示可重构深度神经网络加速器的数据流重构和功能重构,实现对多种复杂可重构功能神经网络硬件加速器的高效编程。

    一种用于向量代数的硬件加速器的设计方法

    公开(公告)号:CN113901746A

    公开(公告)日:2022-01-07

    申请号:CN202111175556.0

    申请日:2021-10-09

    Applicant: 北京大学

    Abstract: 本发明公布了一种用于向量代数的硬件加速器的设计方法,通过对输入到硬件加速器的硬件数据流进行形式化分析,生成硬件加速器在空间上的拓扑结构,以及硬件加速器的片上存储的数据映射和访问序列;并使用预定义的硬件代码模板生成加速器硬件电路代码,为不同的向量运算统一生成硬件加速器,提升硬件加速器设计效率。

    一种基于增量综合的深度神经网络加速器协同设计方法

    公开(公告)号:CN112734011B

    公开(公告)日:2021-12-28

    申请号:CN202110010198.1

    申请日:2021-01-04

    Applicant: 北京大学

    Inventor: 梁云 肖倾城

    Abstract: 本发明公布了一种基于增量综合的深度神经网络加速器协同设计方法,通过增量构造深度神经网络加速器,通过计算图修改检测方法识别上层应用的改变,再利用上层神经网络应用的改变修改层次化重用加速器硬件部分,减少深度神经网络加速器硬件的设计周期,从而提升加速器协同设计的效率。采用本发明方法,自动检测用户对深度神经网络进行的修改,通过多层次重用加速器设计参考,从而节省协同设计周期。同时,增量式生成的加速器可实现与人工设计的加速器相当的性能。

Patent Agency Ranking