「从零开始学大模型」PagedAttention

Hector — Tue, 24 Mar 2026 14:55:00 -0700

概述

Paged Attention 要解决的，是 KV Cache 显存浪费的问题。

一般来说，为了放下 KV Cache，会预先 alloc 出一大块显存，但是 KV Cache 大学又是随着推理进行不断增长，是一个动态的逐渐增大的存储需求。此外，在多个序列同时进行推理时，各个序列的长度不同，对应的 KV Cache 也不一样，此时也不方便为不同序列配置不一样大小的显存。