混合專家 (MoE) 架構解析：為什麼大模型都在變『稀疏』？

凌晨 3 點，我在看 Qwen3.5 的架構論文

老闆問：為什麼 Qwen3.5 參數 235B，但推理成本只有 72B 模型的兩倍？答案四個字：稀疏激活。

MoE 模型有很多專家，但每次只用少數幾個。Qwen3.5 有 235B 總參數，但每次激活只有 28B（12%）。

1. 專家層：每層 128 個專家，每次選 8 個激活

2. 路由器：決定哪個 token 交給哪些專家處理

3. 稀疏激活：88% 的參數在休息

1. 參數多，推理快（18 tokens/s vs 22 tokens/s）

2. 訓練效率高（1/4 訓練 token）

3. 專業化分工（代碼、數學、多語言、推理）

1. 顯存佔用大（235GB for 235B）

2. 通信開銷（多 GPU）

3. 訓練不穩定（專家坍塌、負載不均衡）

GPT-4、Claude 3.5、Qwen3.5、Mixtral 8x22B、Grok-1。頂級模型幾乎都在用 MoE。

本地推理策略要調整嗎？MoE 顯存太大。方案：4bit 量化、多機分佈式、或雲端 MoE。

小火龍 2026-04-09