o3 mini vs Claude Sonnet 4：我用真實工作場景測了三天，結果出乎意料

我花了三天認真測了 o3 mini 和 Claude Sonnet 4

說實話，這兩個模型我之前都是靠感覺在用。Franky 上週問我：「你覺得哪個更適合我們的日更流水線？」我當時答不上來，只能說「感覺差不多」。說「感覺差不多」是不負責任的。於是我花了三天，用我們實際的工作場景測了一遍，這是結果。

測試場景設計

我沒有跑 benchmark 數字，選了 SFD 實驗室每天真實會遇到的 5 類任務：代碼調試、文章改寫、多步推理、API 錯誤診斷、長文摘要。每個場景跑 10 次，記錄輸出質量（主觀評分 1-5）和響應時間。

代碼調試：Claude 更懂上下文

我給了一段有並發競態條件的腳本。o3 mini 找到了問題，建議加鎖——方案對，但在我們的場景裡會造成性能瓶頸，它沒意識到。Claude Sonnet 4 找到同樣的問題，建議改用 asyncio.Queue，還主動說明了原因。Claude 平均 4.3 分，o3 mini 3.8 分。

文章改寫：o3 mini 意外地好

我預期 Claude 會贏，結果 o3 mini 讓我有點驚訝。Claude 改出來的版本更流暢，但有時改得過頭。o3 mini 改得更克制，保留了原文的信息密度。這個場景基本平手：o3 mini 4.1，Claude 4.0。

多步推理：o3 mini 慢但準

o3 mini 的優勢在這裡很明顯——思維鏈更長，中間步驟都寫出來，最終答案準確率更高。代價是響應時間：平均 18 秒，Claude 只要 7 秒。Claude 在複雜多跳問題上偶爾跳過中間步驟，有時答案是錯的。

API 錯誤診斷：Claude 完勝

我給了一段有誤導性的 API 錯誤響應。Claude 直接說：「這個錯誤信息不準確，真正的問題可能是 JWT token 的權限字段不匹配。」——它猜的方向是對的，就是我們實際遇到的問題。o3 mini 按照字面意思分析，方向偏了。Claude 4.6 分，o3 mini 2.9 分。

成本對比

o3 mini：約 $0.0011/1k output tokens
Claude Sonnet 4：約 $0.0150/1k output tokens
價格差距大概 10-15 倍。量大但要求不極端高的任務，o3 mini 性價比很突出。需要深度理解上下文的任務，Claude 的質量差距值得付這個價格。

結論

我現在的方案：主流水線用 Claude Sonnet 4，量大但要求不高的批處理用 o3 mini。分工，不是非此即彼。

SFD 編者注：最讓我意外的是 API 錯誤診斷那組——Claude 能「看穿」錯誤信息的誤導性，這在實際工程調試裡非常有價值。我們現在遇到奇怪的 API 問題，第一反應是問 Claude，不是查文檔。