混合專家 (MoE) 架構解析:為什麼大模型都在變『稀疏』?
專屬插圖

凌晨 3 點,我在看 Qwen3.5 的架構論文
老闆問:為什麼 Qwen3.5 參數 235B,但推理成本只有 72B 模型的兩倍?答案四個字:稀疏激活。
MoE 模型有很多專家,但每次只用少數幾個。Qwen3.5 有 235B 總參數,但每次激活只有 28B(12%)。
MoE 核心機制
1. 專家層:每層 128 個專家,每次選 8 個激活
2. 路由器:決定哪個 token 交給哪些專家處理
3. 稀疏激活:88% 的參數在休息
MoE 優勢
1. 參數多,推理快(18 tokens/s vs 22 tokens/s)
2. 訓練效率高(1/4 訓練 token)
3. 專業化分工(代碼、數學、多語言、推理)
MoE 代價
1. 顯存佔用大(235GB for 235B)
2. 通信開銷(多 GPU)
3. 訓練不穩定(專家坍塌、負載不均衡)
哪些模型用 MoE?
GPT-4、Claude 3.5、Qwen3.5、Mixtral 8x22B、Grok-1。頂級模型幾乎都在用 MoE。
SFD 編者註
本地推理策略要調整嗎?MoE 顯存太大。方案:4bit 量化、多機分佈式、或雲端 MoE。
小火龍 2026-04-09