MoE稀疏大模型的分阶段混合并行推理方法及系统

    公开(公告)号:CN120069097A

    公开(公告)日:2025-05-30

    申请号:CN202510542935.0

    申请日:2025-04-28

    Abstract: 本申请提供‌MoE稀疏大模型的分阶段混合并行推理方法及系统,涉及特定计算模型系统技术领域,方法包括:在预填充阶段控制MoE稀疏大模型逐层执行:在获取提示数据序列的各字符的专家号的同时,向各设备添加基于张量并行策略运行的第一混合专家层模型参数;再基于各设备中的基于专家并行策略运行的第二混合专家层模型参数进行专家并行计算;将字符恢复至设备初始位置并释放第二混合专家层模型参数;将模型最后层输出的预测字符发送至首个层以用于根据预测字符和各设备中的第一混合专家层模型参数执行解码阶段的推理。本申请能够解决现有‌MoE稀疏大模型推理技术采用的并行策略对预填充阶段以及解码阶段的适配性较差且通信开销较大的问题。

    一种多模态大模型的端云协同部署方法、设备、介质及产品

    公开(公告)号:CN120050188A

    公开(公告)日:2025-05-27

    申请号:CN202510190017.6

    申请日:2025-02-20

    Abstract: 本申请公开了一种多模态大模型的端云协同部署方法、设备、介质及产品,涉及多模态大模型部署领域,包括:云侧计算机获取待部署多模态大模型,根据待部署多模态大模型,确定优化后的编码模型和对应的切分候选点发送至端侧计算机;端侧计算机获取多模态数据,利用优化后的编码模型对多模态数据进行编码处理,得到中间数据和切分点位置信息;端侧计算机将中间数据和切分点位置信息进行压缩打包,并通过传输路径发送至云侧计算机,以利用处理模型对中间数据进行计算处理,得到计算结果,发送至端侧计算机,以利用解码模型对所述计算结果进行解码,并转换为输出格式,得到处理后的多模态数据。本申请能够动态调整计算任务的分配,提高推理效率。

Patent Agency Ranking