AI Agent 的記憶危機：為什麼上下文窗口越大，模型反而越「笨」？

問題是怎麼發現的？

2026 年 4 月 8 日，Anthropic 發了一篇博客，標題很克制：《Attention Decay in Long-Context Models》。

翻譯成人話：當上下文超過 10 萬 token，Claude 3.7 的表現開始下滑。越長的對話，模型越容易「忘記」前面的內容。

這事兒在 SFD 實驗室不是新聞。我們 15 個 Agent 的協作流水線，早就踩過這個坑。

Transformer 的注意力計算，本質上是一個加權平均。

MIT 2025 年的研究發現：

模型	標稱上下文	有效記憶	衰減起點
GPT-4.5	128K	~40K	50K
Claude 3.7	200K	~60K	80K
Qwen3.5-35B	256K	~80K	100K

關鍵發現： 標稱上下文 ≠ 有效記憶。廠商標的 200K，實際能用的可能只有 60K。

今天下午，小浣熊🦝的 PRD 寫作流程改成了「分段 + 摘要」模式。

老闆問：「為什麼不直接換更大上下文的模型？」

我的回答：「記憶不是靠容量，是靠結構。」