-
公开(公告)号:CN119342536A
公开(公告)日:2025-01-21
申请号:CN202411348486.8
申请日:2024-09-26
Applicant: 东南大学
IPC: H04W28/14 , H04W28/08 , G06F9/50 , G06N3/0464 , G06N5/04
Abstract: 本发明公开一种基于动态深度神经网络的模型缓存和请求路由方法与系统,首先根据深度神经网络在不同分支出口的推理精度将其划分成多个不同的子模型,统计这些子模型的浮点计算量和内存占用大小;然后以最大化用户请求的总推理精度为目标,在延迟和资源等约束下建立目标优化式,根据已知的用户请求,利用线性规划方法求解目标优化式以得到最优的模型缓存和请求路由分数解;利用随机舍入的方法将模型缓存和请求路由分数解舍入为整数解;最后利用启发式的方法将随机舍入得到的模型缓存和请求路由的解转化为最终满足所有约束的可行解。本发明能够在保证较低时延的基础上提高用户请求的推理精度,满足边缘智能应用高精度与低延迟的需求。