-
公开(公告)号:CN119338016B
公开(公告)日:2025-04-04
申请号:CN202411908417.8
申请日:2024-12-24
Applicant: 北京大学
IPC: G06N5/04 , G06F40/284
Abstract: 本申请提供了一种基于WebGPU的Web大语言模型推理加速优化方法和装置,包括:基于目标用户输入的第一文本,生成多个第一推理词元,确定各个第一推理词元分别对应的第一推理算子,生成各个第一推理算子分别对应的第一计算管线,在得到至少一个第一计算管线的情况下,持续将第一计算管线输入WebGPU应用程序,得到WebGPU应用程序持续输出的第一推理文本,基于WebGPU应用程序输出第一推理文本的先后顺序,将第一推理文本进行组合,得到目标推理文本,能够使生成计算管线的过程和得到第一推理文本的过程并行执行,一定程度上可以提升Web大语言模型对WebGPU计算资源的使用率,缩短了推理任务的执行时间,从而可以提升大语言模型的推理效率。
-
公开(公告)号:CN119338016A
公开(公告)日:2025-01-21
申请号:CN202411908417.8
申请日:2024-12-24
Applicant: 北京大学
IPC: G06N5/04 , G06F40/284
Abstract: 本申请提供了一种基于WebGPU的Web大语言模型推理加速优化方法和装置,包括:基于目标用户输入的第一文本,生成多个第一推理词元,确定各个第一推理词元分别对应的第一推理算子,生成各个第一推理算子分别对应的第一计算管线,在得到至少一个第一计算管线的情况下,持续将第一计算管线输入WebGPU应用程序,得到WebGPU应用程序持续输出的第一推理文本,基于WebGPU应用程序输出第一推理文本的先后顺序,将第一推理文本进行组合,得到目标推理文本,能够使生成计算管线的过程和得到第一推理文本的过程并行执行,一定程度上可以提升Web大语言模型对WebGPU计算资源的使用率,缩短了推理任务的执行时间,从而可以提升大语言模型的推理效率。
-