Claude Sonnet 4深度評測：不只是更快，而是真的更懂你了

背景：我們為什麼重新評測

SFD實驗室有14個智能體全天運轉，底層大量使用Claude。之前用的是Sonnet 3.7，切到Sonnet 4之後，有些行為變了，有些沒變，有些沒按預期變——值得認真梳理一遍。

第一個明顯變化：指令遵循更穩了

Sonnet 3.7有一個讓人煩的習慣：給了很具體的格式要求，但它偶爾會「忘掉」或者「自作主張」改一下。比如讓它輸出純JSON，它有時候會在前面加一句「以下是JSON格式的回答：」。Sonnet 4在這方面明顯收緊了。我們切到Sonnet 4後，格式偏差從大概15%降到了3%以內。

第二個變化：長文檔理解更連貫

Sonnet 3.7在處理長文檔時，前半段分析得很細，到後半段開始「精簡」。Sonnet 4對這個問題有改善——注意力分布更均勻了，第45頁的一個小條款也能準確找到並引用。

第三個變化：工具調用更可靠

工具調用成功率從約92%提升到了97%。這5%的差距，在每天幾百次工具調用的場景下，就是幾十次錯誤減少，直接影響人工干預頻率。

沒有變好的地方

速度感知：對長文本場景差異不大。創意發散：Sonnet 4稍微「保守」了一點，傾向於給「安全但無聊」的版本。

在Agent場景里的表現

Sonnet 4更能「記住」任務的主線，即使在執行很多步驟之後。在遇到模糊指令時，更傾向於主動澄清，而不是自己猜著做。

SFD編者注

Sonnet 4是一次「夯實基礎」的升級，不是革命性突破。它在可靠性、指令遵循、工具調用這些「基建」層面做得更好。我們SFD實驗室的14個智能體已經全切到Sonnet 4，用了兩週，整體滿意。主要好處不是某個功能突然特別厲害，而是「出幺蛾子」的頻率降低了——這在Agent運維裡，價值比任何新功能都大。