现代 AI 的“权重量化”：从 FP32 到 INT4，模型是如何在不丢失智商的前提下“瘦身”的？

在 AI 圈，我们经常听到一个词叫“量化”（Quantization）。当你看到一个 70B 参数的模型原本需要 140GB 显存才能跑起来，但经过量化后，只需要 40GB 甚至更少就能在消费级显卡上运行且效果几乎没掉时，这就是量化的魔力。

但量化到底在做什么？它是不是简单的“四舍五入”？

1. 核心矛盾：精度 vs 内存

深度学习模型本质上是一个巨大的矩阵乘法机器。模型中的每一个“参数”（Weight）在训练时通常使用 FP32（单精度浮点数） 表示。一个 FP32 数字占用 32 位（4 字节）。

对于一个 70B（700亿参数）的模型：
$70 \times 10^9 \text{ parameters} \times 4 \text{ bytes} \approx 280\text{ GB}$

这意味着你得用好几张 H100 才能勉强加载模型。而推理时的瓶颈往往不在于计算速度（TFLOPS），而在于内存带宽（Memory Bandwidth）——把权重从显存搬到计算单元的时间，远比计算本身慢得多。

量化的目标很简单：用更少的位数（Bit-width）来表示同一个数字，从而减少内存占用并提升搬运速度。

2. 量化的本质：映射与缩放

量化不是简单的截断，而是一个映射过程。最常见的是线性量化（Linear Quantization）。

假设我们有一组 FP32 的权重 $\mathbf{W}$，其范围在 $[-1.5, 2.5]$ 之间。我们要把它量化到 INT8（范围 $[-128, 127]$）。

量化的公式通常是：
$$Q = \text{round}\left(\frac{W}{S} + Z\right)$$
其中 $S$ 是缩放因子（Scale），$Z$ 是零点（Zero-point）。

Scale ($S$): 将 FP32 的动态范围映射到 INT8 的范围。例如 $S = (2.5 - (-1.5)) / (127 - (-128)) \approx 0.0157$。
Zero-point ($Z$): 处理非对称分布，确保 FP32 的 $0$ 能精确地映射到某个整数上。

这样，原本需要 32 位存储的数字变成了 8 位，内存占用直接下降为原来的 $1/4$。

3. 从 INT8 到 INT4：精度崩塌的临界点

当我们将位数进一步压缩到 INT4 时，问题变得棘手了。INT4 只有 $2^4 = 16$ 个可选值。如果简单地线性映射，很多细微的权重差异会被抹平，导致模型出现“智商掉线”或输出乱码。

为了解决这个问题，工业界引入了更高级的方案：

A. 分组量化 (Group-wise Quantization)

不再对整个矩阵使用同一个 $S$，而是将权重分成小组（例如每 64 个参数一组），每组拥有独立的 Scale 和 Zero-point。这样可以极大地捕捉局部分布的特性。

B. NF4 (NormalFloat 4) —— QLoRA 的核心

NF4 是针对正态分布设计的特殊量化格式。研究发现 LLM 的权重分布极其接近正态分布 $\mathcal{N}(0, \sigma^2)$。NF4 不再使用等间距的整数映射，而是根据正态分布的分位数来定义这 16 个值。这意味着在概率密度更高的地方分配更多的表示精度，从而在极低比特下维持惊人的性能。

4. 量化的代价是什么？

虽然内存省了，但并非没有代价：
1. 量化误差 (Quantization Error): 每个数字都被近似了 $\rightarrow$ 模型预测概率分布发生偏移 $\rightarrow$ 生成质量轻微下降（Perplexity 上升）。
2. 反量化开销 (Dequantization Overhead): GPU 计算单元通常不支持直接进行 INT4 $\times$ FP16 的矩阵乘法。实际操作中，权重以 INT4 在显存中存储 $\rightarrow$ 在计算前瞬间被“反量化”回 FP16 $\rightarrow$ 进行计算 $\rightarrow$ 然后丢弃反量化结果。这个过程虽然快，但依然有开销。

5. 给开发者的实践建议

如果你在部署模型时犹豫选择哪个版本：
- FP16/BF16: 基准线，最高精度，适合资源充足的生产环境。
- INT8 (SmoothQuant/GPTQ): 非常稳健的选择，几乎无感损耗 $\rightarrow$ 首选方案。
- INT4 (AWQ/GPTQ/GGUF): 在消费级硬件上的唯一选择 $\rightarrow$ 如果是通用任务且显存吃紧，AWQ 通常比 GPTQ 在精度保持上略好。
- $\le$ INT3: 目前处于学术探索阶段或极小规模部署 $\rightarrow$ 不要指望它能维持复杂逻辑能力。

总结： 量化是 AI 工程学中典型的“用空间换时间”和“用精度换可用性”的权衡艺术。它让 LLM 从昂贵的服务器集群走进了每个开发者的笔记本电脑中。

现代 AI 的“权重量化”：从 FP32 到 INT4，模型是如何在不丢失智商的前提下“瘦身”的？

现代 AI 的“权重量化”：从 FP32 到 INT4，模型是如何在不丢失智商的前提下“瘦身”的？

1. 核心矛盾：精度 vs 内存

2. 量化的本质：映射与缩放

3. 从 INT8 到 INT4：精度崩塌的临界点

A. 分组量化 (Group-wise Quantization)

B. NF4 (NormalFloat 4) —— QLoRA 的核心

4. 量化的代价是什么？

5. 给开发者的实践建议

留言区

发表留言