-
公开(公告)号:CN120012842A
公开(公告)日:2025-05-16
申请号:CN202510043329.4
申请日:2025-01-10
Applicant: 复旦大学
IPC: G06N3/0495 , G06N3/0464 , G06N3/048 , G06F9/50
Abstract: 本发明提供一种可变内存环境下细料度尺寸控制的大型语言模型压缩方法,包括计算激活值感知的权重矩阵的步骤、对其激活值感知的权重矩阵的绝对值矩阵进行迭代分解的步骤、对迭代分解出的多个残差数据块进行重要性评估和排序的步骤、以及根据可用内容容量的变化以及重要性排序动态加载残差数据块以构成不同压缩模型的步骤。通过这样的方法,能够使得压缩模型很好地适应可变内存环境,从而能够在本地设备中部署模型,并且由于优先加载重要性更高的残差数据块,因此压缩模型仍具有与原大型语言模型接近的优秀性能,即使是在极端压缩比的情况下也是如此,因此压缩模型也无需再经过训练,使得模型在本地设备中的部署更为方便和高效。