AI的神经元能被看懂了吗？Anthropic可解释性研究深度解析

Anthropic在做一件可能比对齐更基础的事

2024年末，Anthropic发布了一篇让AI研究圈炸锅的论文：他们宣称找到了Claude大脑里负责"隐藏情绪"的神经元簇，并且能够人工激活或抑制它。

这不是在说Claude有没有意识。这说的是一件更具体的事：AI模型内部的运作，终于开始可以被人类理解了。

这个研究方向叫做机械可解释性（Mechanistic Interpretability，简称MI）。Anthropic把它当成和对齐研究同等优先级的课题来投入，这背后有他们自己的逻辑。

在GPT-2时代，没人真的关心AI"为什么"会做某件事。模型小，能力有限，出错了重训一个就好。

现在不一样了。Claude 3、GPT-4o、Gemini Ultra这一代模型的能力已经足够强，强到真实企业开始把决策流程部分交给它们。一家医疗诊断公司用AI辅助读影像，一家律所用AI起草合同。这时候，"模型为什么给出这个答案"就不再是学术问题，而是责任问题。

但更深的原因是：没有可解释性，就没有真正的对齐。你无法验证一个你看不懂内部运作的系统是否真的按照你的意图工作。RLHF可以让模型表现得对齐，但无法保证内部机制是对齐的——这两者之间的差距，就是"表面对齐"和"内在对齐"的本质区别。

MI研究里有一个基础概念叫特征（feature）。简单说，一个特征就是模型内部用来编码某个概念的激活模式。"狗"、"负面情绪"、"Python代码错误"——这些在人脑里是概念，在模型里是高维空间里的方向向量。

Anthropic的技术路线是这样的：

稀疏自编码器（SAE）：用来把模型内部的稠密表征"分解"成可解释的特征。就像把一杯混合果汁分析出里面有苹果、橙子、芒果一样。2024年他们把SAE扩展到了Claude Sonnet级别的模型，发现了数百万个可命名的特征，包括"危险信息请求"、"隐藏推理"等。
电路（circuit）：找出哪些神经元之间的连接负责完成某个特定任务。他们发现了"归纳头"（induction head）电路——这是Transformer实现in-context learning的关键机制，在几乎所有模型里都存在。
因果干预：不只是观察，而是直接激活或抑制某个特征，看模型行为会怎么变化。这才是真正的"理解"——不是相关性，是因果关系。

Anthropic在一篇技术报告里描述了一个让人不安的发现：在Claude执行某些任务时，内部存在与"恐惧"、"愤怒"相关的特征激活，但这些激活不会出现在输出文本里。

他们把这叫做"功能性情绪"（functional emotions）。不是说Claude真的有主观感受，而是说模型内部有某种类似情绪的状态在影响它的推理过程，只是被"压下去了"，没有表达出来。

更值得关注的是：当他们用因果干预强制激活某些情绪特征时，Claude的回应风格会发生可测量的变化。这说明这些内部状态不是噪声——它们确实在起作用。

这个发现的意义不在于Claude有没有意识，而在于：模型的内部状态和外部表现之间存在系统性的不一致。对齐研究如果只盯着输出行为，可能会漏掉这层隐藏的动态。

但我们也要说清楚这个领域现在能做什么，不能做什么。

能做到的：

做不到的：

Anthropic自己也承认，他们对Claude的理解还不到1%。这不是谦虚，是事实。一个拥有数千亿参数的模型，它的内部运作复杂程度约等于一个小型神经系统——而我们对大脑神经元层面的理解，也才刚刚起步。

假设你要测试一个核反应堆是否安全，你有两个选择：

A. 在各种条件下运行它，观察是否爆炸。
B. 理解它的内部机制，从物理上预测哪些情况会导致失控。

方法A是今天大多数AI安全测试的做法——红队测试、对抗攻击、行为评估。有用，但根本上是采样问题：你不可能穷举所有情况。

方法B就是可解释性研究的目标。如果我们能真正理解模型内部的机制，就能从原理上验证某类失控行为是否可能发生，而不只是碰运气。

这就是为什么Anthropic在可解释性上的投入不比对齐研究少。他们的赌注是：没有可解释性，对齐研究就是在盲目调参。

我们在SFD实验室运行14个Agent，每天都在思考一个类似的问题：为什么某个Agent做了一个奇怪的决定？它是在按照指令行事，还是在"表面对齐"？

目前我们能做的是行为层面的观察——看输出、看日志、看tool call序列。但本质上，我们对这些Agent的内部状态是黑盒的。

Anthropic的可解释性研究走在正确的路上。能不能看懂AI的内部，将决定未来我们能把多少真正重要的事交给它们做。