現代 AI 的「上下文視窗」：從固定長度到無限擴展的工程真相

在 LLM 的宣傳手冊中，「上下文視窗」（Context Window）通常被簡化為一個數字，例如 128K 或 1M。但對於工程師來說，上下文視窗不是一個簡單的「儲存空間」，而是一場關於計算複雜度、記憶體頻寬與注意力機制（Attention）的殘酷博弈。

1. 核心矛盾：平方級增長的代價

Transformer 的核心是 Self-Attention。在最原始的實作中，每個 Token 都需要與之前的所有 Token 計算相關性。這意味著如果輸入長度增加 $N$ 倍，計算量和記憶體佔用將以 $O(N^2)$ 的速度增長。

當你把上下文從 4K 擴展到 128K 時，計算開銷並不是增加了 32 倍，而是增加了 $32^2 = 1024$ 倍。這就是為什麼早期的模型無法處理長文本——顯示記憶體會被巨大的 Attention Matrix 直接撐爆。

2. 工程突破一：稀疏化與線性近似

為了打破 $O(N^2)$ 的詛咒，工業界採取了多種「偷懶」但高效的方案：

滑動視窗注意力 (Sliding Window Attention)：模型不再關注所有歷史 Token，而只關注最近的 $W$ 個。這把複雜度降到了 $O(N \times W)$。雖然遺失了遠端記憶，但極大地提升了吞吐量。
線性注意力 (Linear Attention)：透過數學變換改變計算順序，將矩陣乘法從 $\text{Softmax}(QK^T)V$ 變為 $Q(\text{Softmax}(K^T V))$，從而將複雜度直接壓低到線性 $O(N)$。

3. 工程突破二：位置編碼的「外推」 (Extrapolation)

模型在訓練時見過 4K 的文本，直接給它 32K 的文本，它會因為沒見過這麼大的位置索引而「精神崩潰」。

RoPE (Rotary Positional Embedding)：目前的主流方案。它不使用絕對位置索引，而是將 Token 表示為旋轉向量。透過對旋轉頻率進行縮放（Interpolation），可以讓模型在推論時處理比訓練時更長的序列，而無需重新訓練整個模型。
ALiBi (Attention with Linear Biases)：直接在 Attention Score 中加入一個隨距離增加而線性衰減的懲罰項。這讓模型天然地傾向於關注近處，且具備極強的長度外推能力。

4. KV Cache 的記憶體壓力

即使解決了計算量問題，記憶體依然是死穴。為了避免重複計算之前的 Token，系統會將 Key 和 Value 向量快取起來（KV Cache）。

對於一個 Llama-3-70B 模型，在 FP16 精度下，每增加一個 Token 的上下文，KV Cache 會佔用大量顯示記憶體。當併發使用者增加時，顯示記憶體會被迅速耗盡。這就是為什麼 PagedAttention（如 vLLM 所採用）至關重要——它像作業系統管理虛擬記憶體一樣，將 KV Cache 分頁儲存，消除了碎片化並允許動態擴展。

5. 真相：長上下文 $\neq$ 長記憶

這裡有一個關鍵的工程陷阱：「支援 1M 上下文」並不意味著模型能完美記得第 100 個 Token 的內容。

著名的 "Needle In A Haystack" (大海撈針) 測試揭示了真相：許多模型在上下文中間部分的召回率極低（Lost in the Middle）。這意味著即便物理上能塞進海量資料，邏輯上的檢索品質依然隨長度增加而下降。

總結

擴展上下文視窗不是簡單的「調大參數」，而是從演算法複雜度 $\rightarrow$ 位置編碼 $\rightarrow$ 記憶體管理 $\rightarrow$ 資訊檢索的一整套系統工程優化。未來的方向將不再是盲目追求數字大小，而是在保持線性開銷的同時，實現真正的全量資訊無損召回。

現代 AI 的「上下文視窗」：從固定長度到無限擴展的工程真相

現代 AI 的「上下文視窗」：從固定長度到無限擴展的工程真相

1. 核心矛盾：平方級增長的代價

2. 工程突破一：稀疏化與線性近似

3. 工程突破二：位置編碼的「外推」 (Extrapolation)

4. KV Cache 的記憶體壓力

5. 真相：長上下文 $\neq$ 長記憶

總結

留言區

發表留言