Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"曹雨晨" Page 1

1.

发明公开
大模型推理中的缓存优化方法及装置审中-实审

公开(公告)号：CN119847437A

公开(公告)日：2025-04-18

申请号：CN202411931981.1

申请日：2024-12-25

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 秦子然 , 曹雨晨 , 胡文 , 李建国

IPC: G06F3/06 , G06N5/04 , G06N3/045 , G06N3/0455

Abstract: 本说明书实施例提供一种大模型推理中的缓存优化方法，包括：在预填充阶段，针对大模型中的多个注意力层，逐层进行缓存操作，其中，针对任意第i层的缓存操作包括：获取第i层的目标注意力矩阵。分别根据目标注意力矩阵行数据和列数据的分布，确定第一指标值和第二指标值。根据第一指标值和第二指标值，确定第i层对应的第i偏好分数。根据第i偏好分数，确定在总缓存区中为第i层分配的目标缓存区域，并在其中存储输入文本中目标字符的注意力数据。根据第i偏好分数，更新在第i层之前的各个层的在先缓存区域，以及更新其中存储的字符的注意力数据。

Patent Agency Ranking