一种大语言模型软硬件协同量化加速计算方法及系统

    公开(公告)号:CN117574976A

    公开(公告)日:2024-02-20

    申请号:CN202410058901.X

    申请日:2024-01-16

    Applicant: 北京大学

    Inventor: 孙广宇 薛晨皓

    Abstract: 本发明公布了一种大语言模型软硬件协同量化加速计算方法及系统,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速,保证了数据编码的灵活性和规整性,同时易于在系统和硬件上进行实现和部署;可重构加速器系统包括:运算模块、累加模块、解码模块、控制模块、片上缓存和主存。采用本发明,既能够有效保持量化后模型的精度,又能实现硬件高效的推理计算。

    一种大语言模型软硬件协同量化加速计算方法及系统

    公开(公告)号:CN117574976B

    公开(公告)日:2024-04-30

    申请号:CN202410058901.X

    申请日:2024-01-16

    Applicant: 北京大学

    Inventor: 孙广宇 薛晨皓

    Abstract: 本发明公布了一种大语言模型软硬件协同量化加速计算方法及系统,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速,保证了数据编码的灵活性和规整性,同时易于在系统和硬件上进行实现和部署;可重构加速器系统包括:运算模块、累加模块、解码模块、控制模块、片上缓存和主存。采用本发明,既能够有效保持量化后模型的精度,又能实现硬件高效的推理计算。

Patent Agency Ranking