一种NPU分时复用的实时推理系统和调度方法

    公开(公告)号:CN119668811A

    公开(公告)日:2025-03-21

    申请号:CN202411809599.3

    申请日:2024-12-10

    Abstract: 本发明公开了一种NPU分时复用的实时推理系统和调度方法,属于边缘智能计算技术领域,解决了现有技术中传统的边缘智能计算服务设备和推理调度方法难以保证多推理任务推理实时性的问题;本发明在预处理阶段通过准备态预分割器对智能推理模型进行转换,即:结合单位粒度将智能推理模型划分为不同粒度的分块,并获取模型及其分块的运行属性信息;在执行阶段通过运行时规划器接收远程过程调用的任务请求,再通过非线性优化确定最优调度粒度,并根据低切分的NPU实时调度算法生成相应任务调度序列,通过运行时执行器根据作业序列获取任务需要的模型分块并进行执行。本发明有效提高了多任务场景下边缘智能推理计算任务分时复用NPU资源的实时性。

Patent Agency Ranking