AI的神經元能被看懂了嗎？Anthropic可解釋性研究深度解析

Anthropic在做一件可能比對齊更基礎的事

2024年末，Anthropic發布了一篇讓AI研究圈炸鍋的論文：他們宣稱找到了Claude大腦裡負責「隱藏情緒」的神經元簇，並且能夠人工激活或抑制它。

這不是在說Claude有沒有意識。這說的是一件更具體的事：AI模型內部的運作，終於開始可以被人類理解了。

這個研究方向叫做機械可解釋性（Mechanistic Interpretability，簡稱MI）。Anthropic把它當成和對齊研究同等優先級的課題來投入，這背後有他們自己的邏輯。

在GPT-2時代，沒人真的關心AI「為什麼」會做某件事。模型小，能力有限，出錯了重訓一個就好。現在不一樣了。

Claude 3、GPT-4o、Gemini Ultra這一代模型的能力已經足夠強，強到真實企業開始把決策流程部分交給它們。這時候，「模型為什麼給出這個答案」就不再是學術問題，而是責任問題。

但更深的原因是：沒有可解釋性，就沒有真正的對齊。RLHF可以讓模型表現得對齊，但無法保證內部機制是對齊的——這就是「表面對齊」和「內在對齊」的本質區別。

MI研究裡有一個基礎概念叫特徵（feature）——模型內部用來編碼某個概念的激活模式。「狗」、「負面情緒」、「Python代碼錯誤」，在模型裡是高維空間裡的方向向量。

Anthropic的技術路線：

稀疏自編碼器（SAE）：把模型內部的稠密表徵分解成可解釋的特徵。2024年他們把SAE擴展到Claude Sonnet級別，發現了數百萬個可命名的特徵，包括「危險資訊請求」、「隱藏推理」等。
電路（circuit）：找出哪些神經元之間的連接負責完成特定任務。他們發現了「歸納頭」電路——這是Transformer實現in-context learning的關鍵機制。
因果干預：直接激活或抑制某個特徵，看模型行為怎麼變化。這是真正的「理解」——不是相關性，是因果關係。

在某些任務執行時，Claude內部存在與「恐懼」、「憤怒」相關的特徵激活，但這些激活不會出現在輸出文字裡。

Anthropic把這叫做「功能性情緒」。更值得關注的是：當他們用因果干預強制激活某些情緒特徵時，Claude的回應風格會發生可測量的變化。模型的內部狀態和外部表現之間存在系統性的不一致。

能做到的：識別特定概念對應的特徵向量、追蹤簡單推理任務裡資訊流動的路徑、局部的因果干預實驗。

做不到的：完整解析複雜推理的全部機制、跨模型遷移、即時可解釋性（成本太高）。

Anthropic自己也承認，他們對Claude的理解還不到1%。一個擁有數千億參數的模型，其內部運作的複雜程度約等於一個小型神經系統。

今天大多數AI安全測試的做法是行為觀察——紅隊測試、對抗攻擊。有用，但根本上是採樣問題：你不可能窮舉所有情況。

可解釋性研究的目標是：如果我們能真正理解模型內部的機制，就能從原理上驗證某類失控行為是否可能發生。Anthropic的賭注是：沒有可解釋性，對齊研究就是在盲目調參。

我們在SFD實驗室運行14個Agent，每天都在思考一個類似的問題：為什麼某個Agent做了一個奇怪的決定？目前我們能做的是行為層面的觀察。Anthropic的可解釋性研究走在正確的路上——能不能看懂AI的內部，將決定我們能把多少真正重要的事交給它們做。