基于大语言模型投机采样推理的加速器硬件及加速方法

    公开(公告)号:CN117933401B

    公开(公告)日:2024-06-07

    申请号:CN202410331857.5

    申请日:2024-03-22

    Applicant: 北京大学

    Inventor: 孙广宇 李聪

    Abstract: 本发明公布了一种基于大语言模型投机采样推理的加速器硬件及加速方法,基于DRAM‑PIM存内计算架构的投机采样推理算法,设计并使用设计空间探索方法,为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例;根据最优投机采样推理软硬件协同设计,得到基于DRAM‑PIM投机采样大语言模型推理的加速器硬件;并使用文本生成加速方法执行投机采样推理。设计得到的基于投机采样推理的加速器硬件包括一个中央宿主处理器与多个DRAM‑PIM模块。使用本发明可实现高效的文本生成。

    一种大语言模型软硬件协同量化加速计算方法及系统

    公开(公告)号:CN117574976B

    公开(公告)日:2024-04-30

    申请号:CN202410058901.X

    申请日:2024-01-16

    Applicant: 北京大学

    Inventor: 孙广宇 薛晨皓

    Abstract: 本发明公布了一种大语言模型软硬件协同量化加速计算方法及系统,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速,保证了数据编码的灵活性和规整性,同时易于在系统和硬件上进行实现和部署;可重构加速器系统包括:运算模块、累加模块、解码模块、控制模块、片上缓存和主存。采用本发明,既能够有效保持量化后模型的精度,又能实现硬件高效的推理计算。

    基于大语言模型投机采样推理的加速器硬件及加速方法

    公开(公告)号:CN117933401A

    公开(公告)日:2024-04-26

    申请号:CN202410331857.5

    申请日:2024-03-22

    Applicant: 北京大学

    Inventor: 孙广宇 李聪

    Abstract: 本发明公布了一种基于大语言模型投机采样推理的加速器硬件及加速方法,基于DRAM‑PIM存内计算架构的投机采样推理算法,设计并使用设计空间探索方法,为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例;根据最优投机采样推理软硬件协同设计,得到基于DRAM‑PIM投机采样大语言模型推理的加速器硬件;并使用文本生成加速方法执行投机采样推理。设计得到的基于投机采样推理的加速器硬件包括一个中央宿主处理器与多个DRAM‑PIM模块。使用本发明可实现高效的文本生成。

    一种针对DRAM/NVM混合内存的无内存泄漏编程方法

    公开(公告)号:CN113535150B

    公开(公告)日:2023-09-22

    申请号:CN202110862720.9

    申请日:2021-07-29

    Applicant: 北京大学

    Inventor: 孙广宇 李星辰

    Abstract: 本发明公布了一种针对DRAM/NVM混合内存的无内存泄漏编程方法,对现有编程语言进行扩展,设计新的原语、句法、类型以及求值方法等,本发明的编程方法使用该扩展后的编程语言设计来编写程序,只要不抛出错误,即能够避免DRAM和NVM中的内存泄漏。

    一种针对DRAM/NVM混合内存的无内存泄漏编程方法

    公开(公告)号:CN113535150A

    公开(公告)日:2021-10-22

    申请号:CN202110862720.9

    申请日:2021-07-29

    Applicant: 北京大学

    Inventor: 孙广宇 李星辰

    Abstract: 本发明公布了一种针对DRAM/NVM混合内存的无内存泄漏编程方法,对现有编程语言进行扩展,设计新的原语、句法、类型以及求值方法等,本发明的编程方法使用该扩展后的编程语言设计来编写程序,只要不抛出错误,即能够避免DRAM和NVM中的内存泄漏。

    一种广域网环境中分布式系统的计算任务分配方法

    公开(公告)号:CN111966497A

    公开(公告)日:2020-11-20

    申请号:CN202010861083.9

    申请日:2020-08-25

    Applicant: 北京大学

    Inventor: 孙广宇 王晓阳

    Abstract: 本发明公布了一种广域网环境中分布式系统的计算任务分配方法,系统包括多个数据源节点、数据汇节点、数据源节点与数据汇节点之间的中间节点;系统中由数据汇节点发起新任务;数据流由数据源节点产生,在中间节点完成计算,最后流入到数据汇节点;通过对相邻节点的计算任务进行调整与分配,使得数据流中各个数据条目从生成到完成使用的计算时间尽可能接近,动态分配各个节点所承载的计算量。采用本发明技术方案,无需引入中心化调度节点,而通过相邻计算节点之间的任务交换,自动调节系统中各个节点的任务量分配,可避免因少数调度节点故障而导致的系统整体不可用问题,同时提高广域网环境的分布式计算系统的可扩展性。

    内存中计算的功率建模方法及功率管理方法

    公开(公告)号:CN108388498B

    公开(公告)日:2020-09-08

    申请号:CN201810145805.3

    申请日:2018-02-12

    Applicant: 北京大学

    Inventor: 孙广宇 张超 孟彤

    Abstract: 本发明公布了内存中计算的功率建模方法及功率管理方法,首先建立BP模型,采用每功率带宽BP表示内存中计算PIM中的带宽和功率之间的关系;功率管理方法包括功率监控子任务限制PAST、处理单元加速PUB和功率冲刺PS;当功率供应超过功率需求时,采用PAST管理PIM内功率消耗;当需要采用动态调整功率模式时采用PUB方法;当需要短时间的功率过载时,采用PS方法提高功率仲裁器的功率上限值;实现内存中计算的功率管理。采用本发明的BP模型得到的功率和实测相符,其中PAST方法能成功限制PIM的功率,PUB能成功提升芯片的性能;同时采用PAST、PUB和PS方法,能够产生更有效的能源系统,合理配置功率管理方案,进一步提升PIM的性能。

    图像识别方法及电子设备
    18.
    发明公开

    公开(公告)号:CN107545223A

    公开(公告)日:2018-01-05

    申请号:CN201610506416.X

    申请日:2016-06-29

    Inventor: 孙广宇

    Abstract: 本发明实施例公开了一种图像识别方法及装置,所述图像识别方法包括:确定待识别图像中待识别对象对应的待识别区域;利用采用变换数据集训练形成的指定神经网络,对所述待识别区域进行识别获得识别结果;其中,所述变换数据集包括:包含有预设变换的图形对象的训练图像和所述训练图像对应的预设结果。

    异构内存情境下软硬件协同设计的内存优化方法及系统

    公开(公告)号:CN117827464B

    公开(公告)日:2024-04-30

    申请号:CN202410239173.2

    申请日:2024-03-04

    Applicant: 北京大学

    Abstract: 本发明公布了一种异构内存情境下软硬件协同设计的内存优化方法及系统,在硬件设备端的内存控制器中集成内存访问分析单元;在操作系统端即软件端实现内存分层守护进程;内存分层守护进程利用内存访问分析单元提供的信息,将内存中的热页面迁移到速度快的CPU本地内存中,从而实现内存优化。本发明基于高速计算互联协议CXL原生的内存分层,采用硬件与操作系统的协同设计,能够大大提升系统计算性能。

    基于DRAM-PIM查表式神经网络推理与调优的文本分类方法及系统

    公开(公告)号:CN117874241A

    公开(公告)日:2024-04-12

    申请号:CN202410278591.2

    申请日:2024-03-12

    Applicant: 北京大学

    Inventor: 孙广宇 李聪

    Abstract: 本发明公布了一种基于DRAM‑PIM查表式神经网络推理与调优的文本分类方法及系统,包括宿主处理器、控制器和存内计算PIM模块;基于DRAM存内计算架构,通过设计查表式神经网络LUT‑NN算法的算子,实现算法的高效推理,进一步通过自动调优算法获得查表式神经网络在不同场景部署时的最优数据流参数,实现推理参数的高效调优;再通过神经网络推理得到文本分类结果。采用本发明的技术方案,能够发挥硬件平台执行基于LUT‑NN的文本分类任务的能力,提升对不同文本分类场景的兼容性。

Patent Agency Ranking