-
公开(公告)号:CN116664380A
公开(公告)日:2023-08-29
申请号:CN202310720910.6
申请日:2023-06-16
Applicant: 清华大学
IPC: G06T1/20 , G06F17/16 , G06N3/0464
Abstract: 本申请涉及一种面向点云稀疏卷积网络的GPU计算加速方法、装置及设备,包括:根据点云数据的输入特性判断待输入数据流的最优数据流计算策略是否为聚集‑矩阵乘‑分散数据流计算策略,若待输入数据流的最优数据流计算策略为聚集‑矩阵乘‑分散数据流计算策略,则基于聚集‑矩阵乘‑分散数据流计算策略计算待输入数据流得到输出数据,否则,基于按需取数数据流策略计算待输入数据流得到输出数据。由此,解决了面向点云稀疏卷积网络推理计算过程中,由于点云稀疏特性导致的GPU利用率不足,以及由于未考虑数据动态性而导致单一数据流计算的性能恶化等问题,实现了不同数据流的调度,提高网络整体平均性能。
-
公开(公告)号:CN119378681A
公开(公告)日:2025-01-28
申请号:CN202411368534.X
申请日:2024-09-29
Applicant: 清华大学
IPC: G06N5/04 , G06F9/48 , G06F9/50 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本申请公开一种推理方法、系统、计算机设备及存储介质。所述方法应用于包括中央处理单元CPU、图形处理单元GPU和现场可编程门阵列FPGA的目标系统,包括以下步骤:响应于目标推理服务的请求,CPU将目标推理服务的目标输入传到GPU;GPU基于大语言模型的网络结构和权重参数对目标输入进行预填充阶段的计算,得到包括预填充阶段的中间计算结果和最终计算结果的第一数据,并将其传到CPU;CPU将第一数据传到FPGA;FPGA基于大语言模型的网络结构、权重参数和第一数据进行解码阶段的计算,得到第二数据将其传到CPU;CPU将第二数据作为目标推理服务的输出。本申请能够将目标推理服务分阶段部署到GPU和FPGA,通过协作运行的方式完成目标推理服务,充分利用GPU和FPGA的硬件资源。
-
公开(公告)号:CN118034785A
公开(公告)日:2024-05-14
申请号:CN202410432921.9
申请日:2024-04-11
Applicant: 清华大学
Abstract: 本发明涉及大语言模型处理技术领域,特别涉及一种指令压缩方法、装置、加速器及存储介质,其中,方法包括:根据大语言模型加速器的当前指令集中的待压缩指令的并行度确定当前指令集中的待压缩指令的指令复用比例,待压缩指令至少用于执行大语言模型的处理阶段中的一种计算;基于待压缩指令的指令复用比例生成并存储多种指令,其中每种指令被配置为实现支持不同长度范围的输入令牌的待压缩指令的计算。由此,解决了相关技术中在线编译速度较慢导致无法满足实时性的需求,而线下编译需要大量存储空间,导致成本较高等问题。
-
公开(公告)号:CN118034785B
公开(公告)日:2024-06-11
申请号:CN202410432921.9
申请日:2024-04-11
Applicant: 清华大学
Abstract: 本发明涉及大语言模型处理技术领域,特别涉及一种指令压缩方法、装置、加速器及存储介质,其中,方法包括:根据大语言模型加速器的当前指令集中的待压缩指令的并行度确定当前指令集中的待压缩指令的指令复用比例,待压缩指令至少用于执行大语言模型的处理阶段中的一种计算;基于待压缩指令的指令复用比例生成并存储多种指令,其中每种指令被配置为实现支持不同长度范围的输入令牌的待压缩指令的计算。由此,解决了相关技术中在线编译速度较慢导致无法满足实时性的需求,而线下编译需要大量存储空间,导致成本较高等问题。
-
公开(公告)号:CN118093143A
公开(公告)日:2024-05-28
申请号:CN202410437753.2
申请日:2024-04-12
Applicant: 清华大学
Abstract: 本公开涉及人工智能领域,尤其涉及一种大语言模型解码阶段的数据调度方法和装置,确定大语言模型解码阶段的至少一个数据操作,并在加速器片上分配片上缓存区域。对至少一个数据操作进行操作融合得到包括N个按顺序执行的数据操作的操作组合,在解码阶段获取输入激活向量以按顺序执行操作组合中的数据操作。其中,在执行第一个到第N‑1个数据操作时,完成每一次操作步骤后得到对应的中间激活向量,并通过片上缓存区域存储所述中间激活向量。在执行第N个数据操作时得到对应的输出激活向量。本公开可以通过在加速器片上开辟片上缓存区域存储解码阶段的中间参数,避免多次进行片外数据存储,有效利用计算与带宽资源提高加速器的推理效率。
-
公开(公告)号:CN113360259A
公开(公告)日:2021-09-07
申请号:CN202110594180.0
申请日:2021-05-28
Applicant: 清华大学
Abstract: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。
-
公开(公告)号:CN118093143B
公开(公告)日:2024-07-02
申请号:CN202410437753.2
申请日:2024-04-12
Applicant: 清华大学
Abstract: 本公开涉及人工智能领域,尤其涉及一种大语言模型解码阶段的数据调度方法和装置,确定大语言模型解码阶段的至少一个数据操作,并在加速器片上分配片上缓存区域。对至少一个数据操作进行操作融合得到包括N个按顺序执行的数据操作的操作组合,在解码阶段获取输入激活向量以按顺序执行操作组合中的数据操作。其中,在执行第一个到第N‑1个数据操作时,完成每一次操作步骤后得到对应的中间激活向量,并通过片上缓存区域存储所述中间激活向量。在执行第N个数据操作时得到对应的输出激活向量。本公开可以通过在加速器片上开辟片上缓存区域存储解码阶段的中间参数,避免多次进行片外数据存储,有效利用计算与带宽资源提高加速器的推理效率。
-
公开(公告)号:CN116894468A
公开(公告)日:2023-10-17
申请号:CN202310944645.X
申请日:2023-07-28
Applicant: 清华大学
IPC: G06N3/063 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及点云神经网络技术领域,特别涉及一种面向3D点云神经网络算法的硬件架构、计算方法及设备,其中,硬件架构包括:片外存储;映射模块,映射模块设置有距离过滤技术和/或输出优先映射计算技术,以降低计算3D点云神经网络算法的映射操作时片外存储的片外访存量,根据映射操作生成输入和输出之间的映射关系;计算模块,计算模块设置有弹性阵列架构,根据3D点云神经网络算法中不同规模的计算任务调整弹性阵列架构,根据映射关系取出权重和对应的输入特征进行矩阵运算得到输出特征。由此,解决了相关技术中,点云神经网络加速器片外访存量大,计算单元利用率低,导致加速器处理速度慢、可扩展性和灵活性差,无法满足实际需要等问题。
-
公开(公告)号:CN113420517B
公开(公告)日:2023-01-06
申请号:CN202110593553.2
申请日:2021-05-28
Applicant: 清华大学
Abstract: 本申请公开一种面向云端深度学习推理的FPGA虚拟化硬件系统栈设计,涉及人工智能技术领域,该设计包括分布式FPGA硬件辅助虚拟化硬件架构、CPU服务器节点用于运行虚拟机容器、静态编译器和深度神经网络DNN,其中,所述深度神经网络DNN用于获取用户指令,通过所述静态编译器将所述用户指令编译为指令包;FPGA服务器计算节点,用于运行虚拟化系统服务和FPGA加速卡,所述FPGA加速卡包括虚拟化多核硬件资源池和四块双倍速率同步动态随机存储器DDR;总控制节点用于通过控制层管理所述CPU服务器节点和所述FPGA服务器计算节点中的各节点。上述方案的本申请解决了现有技术中面向深度学习推理应用的FPGA虚拟化方案中无法拓展到分布式多节点计算集群的技术问题。
-
公开(公告)号:CN113360259B
公开(公告)日:2022-10-11
申请号:CN202110594180.0
申请日:2021-05-28
Applicant: 清华大学
Abstract: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。
-
-
-
-
-
-
-
-
-