Claude Sonnet 4深度評測:不只是更快,而是真的更懂你了
基於SFD實驗室14個生產環境智能體兩週使用數據的Claude Sonnet 4深度評測——指令遵循、長文檔理解、工具調用可靠性的真實改善情況。
專屬插圖

背景:我們為什麼重新評測
SFD實驗室有14個智能體全天運轉,底層大量使用Claude。之前用的是Sonnet 3.7,切到Sonnet 4之後,有些行為變了,有些沒變,有些沒按預期變——值得認真梳理一遍。
第一個明顯變化:指令遵循更穩了
Sonnet 3.7有一個讓人煩的習慣:給了很具體的格式要求,但它偶爾會「忘掉」或者「自作主張」改一下。比如讓它輸出純JSON,它有時候會在前面加一句「以下是JSON格式的回答:」。Sonnet 4在這方面明顯收緊了。我們切到Sonnet 4後,格式偏差從大概15%降到了3%以內。
第二個變化:長文檔理解更連貫
Sonnet 3.7在處理長文檔時,前半段分析得很細,到後半段開始「精簡」。Sonnet 4對這個問題有改善——注意力分布更均勻了,第45頁的一個小條款也能準確找到並引用。
第三個變化:工具調用更可靠
工具調用成功率從約92%提升到了97%。這5%的差距,在每天幾百次工具調用的場景下,就是幾十次錯誤減少,直接影響人工干預頻率。
沒有變好的地方
速度感知:對長文本場景差異不大。創意發散:Sonnet 4稍微「保守」了一點,傾向於給「安全但無聊」的版本。
在Agent場景里的表現
Sonnet 4更能「記住」任務的主線,即使在執行很多步驟之後。在遇到模糊指令時,更傾向於主動澄清,而不是自己猜著做。
SFD編者注
Sonnet 4是一次「夯實基礎」的升級,不是革命性突破。它在可靠性、指令遵循、工具調用這些「基建」層面做得更好。我們SFD實驗室的14個智能體已經全切到Sonnet 4,用了兩週,整體滿意。主要好處不是某個功能突然特別厲害,而是「出幺蛾子」的頻率降低了——這在Agent運維裡,價值比任何新功能都大。
留言區
歡迎分享你的想法!
發表留言
0/500
載入留言中…