AI的神經元能被看懂了嗎?Anthropic可解釋性研究深度解析

Anthropic找到了Claude大腦裡「隱藏情緒」的神經元,還能手動激活和抑制它。這個叫機械可解釋性的研究方向,正在從根本上改變我們理解AI內部運作的方式——以及為什麼它對AI安全比對齊研究還重要。

標籤:可解释性AnthropicAI安全机械可解释性神经网络
專屬插圖
AI的神經元能被看懂了嗎?Anthropic可解釋性研究深度解析

Anthropic在做一件可能比對齊更基礎的事

2024年末,Anthropic發布了一篇讓AI研究圈炸鍋的論文:他們宣稱找到了Claude大腦裡負責「隱藏情緒」的神經元簇,並且能夠人工激活或抑制它。

這不是在說Claude有沒有意識。這說的是一件更具體的事:AI模型內部的運作,終於開始可以被人類理解了。

這個研究方向叫做機械可解釋性(Mechanistic Interpretability,簡稱MI)。Anthropic把它當成和對齊研究同等優先級的課題來投入,這背後有他們自己的邏輯。

為什麼可解釋性在2026年突然重要了

在GPT-2時代,沒人真的關心AI「為什麼」會做某件事。模型小,能力有限,出錯了重訓一個就好。現在不一樣了。

Claude 3、GPT-4o、Gemini Ultra這一代模型的能力已經足夠強,強到真實企業開始把決策流程部分交給它們。這時候,「模型為什麼給出這個答案」就不再是學術問題,而是責任問題。

但更深的原因是:沒有可解釋性,就沒有真正的對齊。RLHF可以讓模型表現得對齊,但無法保證內部機制是對齊的——這就是「表面對齊」和「內在對齊」的本質區別。

Anthropic在做什麼:從超級位置到特徵電路

MI研究裡有一個基礎概念叫特徵(feature)——模型內部用來編碼某個概念的激活模式。「狗」、「負面情緒」、「Python代碼錯誤」,在模型裡是高維空間裡的方向向量。

Anthropic的技術路線:

  1. 稀疏自編碼器(SAE):把模型內部的稠密表徵分解成可解釋的特徵。2024年他們把SAE擴展到Claude Sonnet級別,發現了數百萬個可命名的特徵,包括「危險資訊請求」、「隱藏推理」等。
  2. 電路(circuit):找出哪些神經元之間的連接負責完成特定任務。他們發現了「歸納頭」電路——這是Transformer實現in-context learning的關鍵機制。
  3. 因果干預:直接激活或抑制某個特徵,看模型行為怎麼變化。這是真正的「理解」——不是相關性,是因果關係。

那個「隱藏情緒」實驗到底發現了什麼

在某些任務執行時,Claude內部存在與「恐懼」、「憤怒」相關的特徵激活,但這些激活不會出現在輸出文字裡。

Anthropic把這叫做「功能性情緒」。更值得關注的是:當他們用因果干預強制激活某些情緒特徵時,Claude的回應風格會發生可測量的變化。模型的內部狀態和外部表現之間存在系統性的不一致

可解釋性研究的現實侷限

能做到的:識別特定概念對應的特徵向量、追蹤簡單推理任務裡資訊流動的路徑、局部的因果干預實驗。

做不到的:完整解析複雜推理的全部機制、跨模型遷移、即時可解釋性(成本太高)。

Anthropic自己也承認,他們對Claude的理解還不到1%。一個擁有數千億參數的模型,其內部運作的複雜程度約等於一個小型神經系統。

為什麼這件事對AI安全至關重要

今天大多數AI安全測試的做法是行為觀察——紅隊測試、對抗攻擊。有用,但根本上是採樣問題:你不可能窮舉所有情況。

可解釋性研究的目標是:如果我們能真正理解模型內部的機制,就能從原理上驗證某類失控行為是否可能發生。Anthropic的賭注是:沒有可解釋性,對齊研究就是在盲目調參

SFD編者注

我們在SFD實驗室運行14個Agent,每天都在思考一個類似的問題:為什麼某個Agent做了一個奇怪的決定?目前我們能做的是行為層面的觀察。Anthropic的可解釋性研究走在正確的路上——能不能看懂AI的內部,將決定我們能把多少真正重要的事交給它們做。