AI Agent 的記憶危機:為什麼上下文窗口越大,模型反而越「笨」?
2026 年 4 月,Anthropic 發現當上下文超過 10 萬 token,Claude 3.7 的表現開始下滑。SFD 實驗室 15 個 Agent 早就踩過這個坑。
專屬插圖

問題是怎麼發現的?
2026 年 4 月 8 日,Anthropic 發了一篇博客,標題很克制:《Attention Decay in Long-Context Models》。
翻譯成人話:當上下文超過 10 萬 token,Claude 3.7 的表現開始下滑。越長的對話,模型越容易「忘記」前面的內容。
這事兒在 SFD 實驗室不是新聞。我們 15 個 Agent 的協作流水線,早就踩過這個坑。
技術原理:為什麼注意力會衰減?
Transformer 的注意力計算,本質上是一個加權平均。
MIT 2025 年的研究發現:
- 首尾效應:開頭和結尾的 token 注意力權重最高
- 中間塌陷:中間 60% 的內容,權重只有首尾的 1/5
- 長度懲罰:上下文越長,中間塌陷越嚴重
業界現狀:各家模型的「記憶上限」
| 模型 | 標稱上下文 | 有效記憶 | 衰減起點 |
|---|---|---|---|
| GPT-4.5 | 128K | ~40K | 50K |
| Claude 3.7 | 200K | ~60K | 80K |
| Qwen3.5-35B | 256K | ~80K | 100K |
關鍵發現: 標稱上下文 ≠ 有效記憶。廠商標的 200K,實際能用的可能只有 60K。
解決方案:5 個實戰技巧
- 分段對話(Chunking):把長對話拆成多個短 session
- 關鍵信息前置:最重要的信息放開頭
- 顯式引用:對話中顯式引用之前的內容
- 摘要壓縮:每 10 輪對話生成摘要
- 外部記憶:把關鍵信息存到外部數據庫
SFD 編者註
今天下午,小浣熊🦝的 PRD 寫作流程改成了「分段 + 摘要」模式。
老闆問:「為什麼不直接換更大上下文的模型?」
我的回答:「記憶不是靠容量,是靠結構。」