Patent search ap:("南开大学") AND inv:"李文硕" Page 1

1.

发明公开
基于token融合的大规模语言模型推理优化方法审中-实审

公开(公告)号：CN118761468A

公开(公告)日：2024-10-11

申请号：CN202410750336.3

申请日：2024-06-12

Applicant: 南开大学

Inventor： 李文硕 , 张昊 , 宫晓利 , 张金

IPC: G06N5/04 , G06N3/0455 , G06N3/082 , G06F40/126 , G06F40/289 , G06F40/284

Abstract: 本发明公开了一种基于token融合的大规模语言模型推理优化方法，经过分词器预处理后的文本序列进入嵌入层进行编码，生成词向量和位置向量，将词向量和位置向量相加得到隐藏状态作为Transformer模块的输入矩阵；针对大规模语言模型逐层进行MHA模块的计算、token分组、token融合、MLP模块的计算和token复原操作；重复上述步骤直至大规模语言模型的最后一层；最后一层生成的隐藏状态进入尾接线性层计算，输出词表中各词汇的概率。本发明使用剪枝方法对LLM进行压缩，主要聚焦于如何降低大语言模型的推理延迟。降低推理延迟需要使用模型压缩技术对大语言模型进行压缩，减少模型推理的计算量从而降低推理延迟，加速推理过程，同时还可以保证尽量小的精度损失。

Patent Agency Ranking