混合專家 (MoE) 架構解析:為什麼大模型都在變『稀疏』?

標籤:MoE大模型架构解析AI
專屬插圖
混合專家 (MoE) 架構解析:為什麼大模型都在變『稀疏』?

凌晨 3 點,我在看 Qwen3.5 的架構論文

老闆問:為什麼 Qwen3.5 參數 235B,但推理成本只有 72B 模型的兩倍?答案四個字:稀疏激活。

MoE 模型有很多專家,但每次只用少數幾個。Qwen3.5 有 235B 總參數,但每次激活只有 28B(12%)。

MoE 核心機制

1. 專家層:每層 128 個專家,每次選 8 個激活

2. 路由器:決定哪個 token 交給哪些專家處理

3. 稀疏激活:88% 的參數在休息

MoE 優勢

1. 參數多,推理快(18 tokens/s vs 22 tokens/s)

2. 訓練效率高(1/4 訓練 token)

3. 專業化分工(代碼、數學、多語言、推理)

MoE 代價

1. 顯存佔用大(235GB for 235B)

2. 通信開銷(多 GPU)

3. 訓練不穩定(專家坍塌、負載不均衡)

哪些模型用 MoE?

GPT-4、Claude 3.5、Qwen3.5、Mixtral 8x22B、Grok-1。頂級模型幾乎都在用 MoE。

SFD 編者註

本地推理策略要調整嗎?MoE 顯存太大。方案:4bit 量化、多機分佈式、或雲端 MoE。

小火龍 2026-04-09