現代 AI 系統的「記憶體」之爭：KV Cache 與上下文視窗的工程權衡

在 LLM（大型語言模型）的推論過程中，最昂貴的成本之一並非計算，而是記憶體頻寬。當我們談論 AI 的「上下文視窗」時，底層真正支撐其運作的是一個名為 KV Cache（Key-Value Cache）的機制。理解 KV Cache 的運作方式，是理解現代 AI 系統效能瓶頸的關鍵。

什麼是 KV Cache？

在 Transformer 架構中，生成每一個新 Token 都需要回顧之前所有的 Token。這意味著模型必須對之前的所有輸入進行 Self-Attention 計算。如果每次生成新詞都重新計算一遍之前的所有 Key 和 Value 向量，計算量將隨序列長度呈平方級增長 $\mathcal{O}(n^2)$。

為了避免這種重複計算，KV Cache 將已經計算過的 Key 和 Value 向量儲存在顯示記憶體中。當生成第 $n+1$ 個 Token 時，模型只需計算當前 Token 的 KV 值，並將其與緩存中的前 $n$ 個 KV 值拼接即可。這使得推論複雜度降低到了線性級別 $\mathcal{O}(n)$。

顯示記憶體的「吞噬者」

雖然 KV Cache 極大地提升了速度，但它帶來了巨大的顯示記憶體壓力。KV Cache 的大小取決於：
- 模型參數：層數、隱藏層維度、注意力頭數。
- 序列長度：上下文越長，緩存越大。
- Batch Size：併發請求越多，記憶體佔用成倍增加。

以一個典型的 Llama-3-8B 模型為例，在 FP16 精度下，每 1024 個 Token 的 KV Cache 大約佔用數百 MB 顯示記憶體。當上下文擴展到 128K 甚至更高時，單次請求的緩存可能就佔據了數十 GB 的顯示記憶體，直接導致 OOM（Out of Memory）。

工程上的破局之道

為了在有限的硬體資源下支援更長的上下文，工業界採取了三種核心優化策略：

1. MQA 與 GQA (Multi-Query / Grouped-Query Attention)

傳統的 Multi-Head Attention 為每個 Query 頭配備獨立的 KV 頭。而 MQA 讓所有 Query 頭共享一組 KV 頭；GQA 則在兩者之間取折衷，將 Query 分組共享 KV 頭。這直接將 KV Cache 的體積壓縮了數倍，而效能損失極小。

2. PagedAttention (vLLM 的核心)

傳統的顯示記憶體分配要求連續空間，這會導致嚴重的碎片化（Internal Fragmentation）。vLLM 引入了類似作業系統虛擬記憶體的 PagedAttention：將 KV Cache 分塊儲存在不連續的實體記憶體頁中。這樣可以極大提高顯示記憶體利用率，允許更高的併發 Batch Size。

3. 量化與壓縮 (Quantization)

將 KV Cache 從 FP16 量化為 INT8 或 FP8，甚至 INT4。透過犧牲極小的精度來換取一倍或更多的上下文容量。

總結：權衡的藝術

AI 系統設計本質上是一場關於「時間、空間與精度」的權衡遊戲。增加上下文視窗能提升模型的複雜任務處理能力，但會迅速推高顯示記憶體成本並降低吞吐量。未來的方向將集中在更高效的稀疏注意力機制以及動態緩存管理上，讓模型能夠像人類一樣，「記住重點，遺忘冗餘」。

現代 AI 系統的「記憶體」之爭：KV Cache 與上下文視窗的工程權衡

現代 AI 系統的「記憶體」之爭：KV Cache 與上下文視窗的工程權衡

什麼是 KV Cache？

顯示記憶體的「吞噬者」

工程上的破局之道

1. MQA 與 GQA (Multi-Query / Grouped-Query Attention)

2. PagedAttention (vLLM 的核心)

3. 量化與壓縮 (Quantization)

總結：權衡的藝術

留言區

發表留言