一种重要性感知的KV缓存管理系统及方法

    公开(公告)号:CN119536635A

    公开(公告)日:2025-02-28

    申请号:CN202411476146.3

    申请日:2024-10-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种重要性感知的KV缓存管理系统及方法,旨在解决大模型推理过程中由于传统的K、V缓存管理策略效率低下导致的推理时延长,吞吐率低的问题。本发明在K、V缓存的管理策略中引入重要性,通过追踪K、V的重要性,并结合K、V被读取的频率,用重要性分数作为缓存管理的依据,提高了存储中的相对快速介质上的缓存命中率,减少了读取K、V的时间,降低了推理系统的整体时延,提高了吞吐量。本发明适用于有共享前缀的基于重要性的大模型推理任务,能够在维持模型推理精度的同时,缩短输出时延,提升吞吐量约两倍。

    一种重要性感知的大模型前缀KV重排方法和系统

    公开(公告)号:CN119396987A

    公开(公告)日:2025-02-07

    申请号:CN202411465558.7

    申请日:2024-10-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种重要性感知的大模型前缀KV重排方法和系统,包括:通过重要信息采集模块根据历史查询和前缀的计算结果,判断出基数树中每个节点内的所有token是否为重要的;通过前缀KV重排模块读取包含Imp序列的K或V的数据块到CPU内存中,然后将其中重要的token对应的K或V重新放置在一个数据块中,不重要的token对应的K或V放置在其他的数据块中;元数据更新模块根据重排后的token顺序,更新每个基数树节点中的序列,把重要的token放在前面,不重要的放在后面。本发明缓解了读放大问题,进一步减少磁盘的数据读取量;降低前缀KV复用时的加载时间,从而缩短大模型推理时产生第一个token的时间。

    一种重要性感知的深度学习数据预取方法和系统

    公开(公告)号:CN118606761A

    公开(公告)日:2024-09-06

    申请号:CN202410762037.1

    申请日:2024-06-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种重要性感知的深度学习数据预取方法和系统,旨在解决训练数据预取时间长导致的训练性能低下的问题。本发明首先通过训练数据分类模块根据数据的重要性值进行分类,将训练数据自动分为重要性波动大和波动小的两类训练数据;然后通过历史重要值评估模块和实时重要值评估模块来评估数据的重要性值,动态调整数据预取策略,优先加载对模型性能提升有显著作用的重要数据,减少对不重要数据的加载,从而降低数据加载时间,提高训练效率。本发明适用于大规模训练数据集,能够在维持同等水平模型精度的同时,缩短50%的训练时间。

Patent Agency Ranking