别把 AI 实验室当成“黑盒”：从工程视角看 LLM 交付的三个深坑

在很多企业的 AI 落地过程中，最常见的误区是将 LLM 交付视为一个简单的“Prompt 工程”或“API 调用”。很多团队在 Demo 阶段表现惊艳，但一旦进入生产环境（Production），就会陷入一种诡异的循环：调优 Prompt $\rightarrow$ 某个 Case 好了 $\rightarrow$ 三个旧 Case 崩了 $\rightarrow$ 继续调优。

这种现象本质上是因为团队缺乏一套确定性的工程交付标准，而试图用“炼金术”来替代“工业流程”。在实际的 AI Lab 交付中，有三个深坑是绝大多数团队都会踩的。

深坑一：缺乏“黄金数据集”（Golden Dataset）的幻觉

很多开发者习惯于通过“随机抽检”来验证模型效果。比如，写完一个 Prompt 后，手动输入 5-10 个典型问题，如果回答得不错，就认为模型“可用”了。

工程教训：
随机抽检无法量化回归。当你为了修复一个边缘案例（Edge Case）而修改 Prompt 时，你根本不知道这次修改是否破坏了之前已经正确的 90% 的场景。

正确做法：
建立一个包含 $\ge 100$ 个典型场景的黄金数据集。每个样本必须包含：
1. Input: 标准输入。
2. Expected Output: 理想的答案（或关键判定点）。
3. Evaluation Logic: 是通过 LLM-as-a-Judge 打分，还是通过正则表达式匹配关键词，亦或是通过代码断言（Assertion）。

每次修改 Prompt 后，必须全量跑一遍数据集，计算 Pass Rate。只有当新版本在不降低整体 Pass Rate 的前提下解决了特定 Bug 时，才允许合并。

深坑二：过度依赖单一模型的“全能感”

很多项目在设计之初就试图用一个最强的模型（如 GPT-4o 或 Claude 3.5 Sonnet）解决所有问题。虽然这在开发初期最快，但在工程化阶段会带来巨大的成本压力和延迟问题。

工程教训：
强模型在处理简单任务时是极大的浪费，且其复杂的推理路径有时反而会导致在简单指令上的“过度思考”（Overthinking），产生不必要的冗余输出。

正确做法：
实施 Router-based Architecture（路由架构）。
- 分类层 (Classifier): 使用轻量级模型（如 GPT-4o-mini 或 Llama-3-8B）将请求分类为：简单查询、复杂推理、格式转换、敏感拦截。
- 执行层 (Executor): 根据分类结果分发给不同的 Prompt 和模型组合。
- 简单查询 $\rightarrow$ 低成本模型 + 精简 Prompt $\rightarrow$ 低延迟响应。
- 复杂推理 $\rightarrow$ 高性能模型 + CoT (Chain of Thought) Prompt $\rightarrow$ 高质量结果。

这种架构不仅能降低 60%-80% 的 Token 成本，还能通过针对性优化不同链路的 Prompt 来提升整体稳定性。

深坑三：忽略了“非确定性”带来的系统级崩溃

LLM 的输出具有随机性（即使 temperature=0 也不能完全消除）。很多工程师将 LLM 的输出直接喂给下游的 JSON 解析器或数据库接口，导致系统频繁出现 JSONDecodeError 或 SQL 注入风险。

工程教训：
永远不要相信 LLM 返回的格式是完美的。只要规模足够大，它一定会某一次忘记闭合括号或者在 JSON 前面加上一句 “Here is the result:”。

正确做法：
引入 Guardrail 层（护栏机制） 和 结构化强制约束：
1. Schema Enforcement: 使用 Pydantic 或 JSON Schema 进行强类型校验。如果校验失败，立即触发自动重试机制（Retry with Error Feedback），将解析错误反馈给模型让其自我修正。
2. Output Sanitization: 在进入下游系统前，通过正则或专用清洗函数剔除所有 Markdown 代码块标记（如 ```json ... ```）。
3. Fallback Strategy: 为每一个关键节点设计兜底方案。如果 LLM 在三次尝试后仍无法输出合法格式，系统应返回一个预定义的安全默认值而非直接抛出 Exception 给用户。

总结

AI 工程化的核心在于：用确定性的流程去管理非确定性的输出。

不要试图寻找那个“完美的 Prompt”，而要构建一套能够快速迭代、量化评估并具备鲁棒性容错能力的交付流水线。当你不再依赖于“感觉不错”，而是依赖于 “Pass Rate 从 82% 提升到 87%” 时，你的 AI 项目才真正走出了实验室，进入了工业界。

别把 AI 实验室当成“黑盒”：从工程视角看 LLM 交付的三个深坑

别把 AI 实验室当成“黑盒”：从工程视角看 LLM 交付的三个深坑

深坑一：缺乏“黄金数据集”（Golden Dataset）的幻觉

深坑二：过度依赖单一模型的“全能感”

深坑三：忽略了“非确定性”带来的系统级崩溃

总结

留言区

发表留言