一种提升大语言模型批量推理效率的处理方法

    公开(公告)号:CN119558398A

    公开(公告)日:2025-03-04

    申请号:CN202411401959.6

    申请日:2024-10-09

    Applicant: 北京大学

    Abstract: 本发明公开了一种提升大语言模型批量推理效率的处理方法,其步骤包括:1)利用大语言模型对所有待处理的推理任务执行预填充处理,得到每一推理任务的序列中各词元的键向量和值向量以及一词元并缓存到任务池中;2)首轮迭代计算时,将从任务池所选n个推理任务对应的最新单个词元T组成张量TB、对应的键值向量组成张量KVB、各注意力掩码向量组成张量AB;将TB、KVB和AB输入大语言模型推理计算更新TB、AB和KVB用于下一轮迭代计算;3)当一推理任务迭代结束后,将该推理任务在各次迭代输出的词元进行拼接得到该推理任务的推理结果,并从任务池中选择待处理任务执行下一轮迭代。本发明提升了任务的处理效率和算力资源利用率。

Patent Agency Ranking