评测漂移：为什么榜单高分不等于上线稳定

模型评测经常被当成采购和升级的依据。某个模型在榜单上高了两个百分点，看起来就像明确胜出。但生产系统真正关心的不是公开 benchmark 上的平均分，而是模型在你的用户、你的数据、你的约束和你的失败成本下是否稳定。

评测漂移指的就是这个落差：离线评测结果很好，模型上线后却在真实场景里退化、变慢、变贵，甚至改变产品行为。

Benchmark 测的是固定问题

公开榜单通常有固定题库、固定评分方式和相对标准化的输入。它擅长比较模型的一般能力，却不擅长覆盖业务里的脏数据、长尾请求、格式要求、上下文污染和用户奇怪表达。

例如，一个模型在通用问答上得分很高，不代表它能稳定输出 JSON；代码能力强，不代表它能理解你项目里的历史约定；中文表现好，也不代表它能处理繁简混排、行业术语和内部缩写。

真实用户会改变模型面对的问题。产品刚上线时，用户可能只问简单问题；功能变复杂后，用户开始上传长文档、截图、表格和跨轮对话。节假日、热点事件、营销活动也会改变请求类型。

如果评测集没有随生产流量更新，模型看起来没有变，实际面对的任务已经变了。此时继续相信旧分数，就是把历史环境当成当前环境。

模型不是单独工作的。系统提示词、检索结果、工具返回值、内容过滤策略、温度参数都会影响输出。一次小的 prompt 修改，可能让模型更礼貌，也可能让它更啰嗦；一次检索源更新，可能提高覆盖率，也可能引入噪音。

因此，模型评测不能只测模型版本，还要测完整链路版本。生产问题经常不是“模型变差了”，而是模型、prompt、工具和数据源组合后的行为变了。

第一，保留一组业务金样本。它不需要很大，但必须覆盖高价值流程、常见错误和不可接受失败。第二，记录线上匿名化样本，定期抽样加入回归集。第三，把格式错误率、重试率、人工改写率、用户撤回率作为质量信号，而不只看离线分数。

第四，模型升级要灰度。新模型先跑影子流量，比较输出差异，再逐步接管真实请求。对内容系统来说，尤其要看主题重复、标题相似、事实错误和风格漂移。

榜单能告诉你模型有没有潜力，不能证明它适合你的生产系统。上线前要做业务评测，上线后要做持续监控，模型、prompt、工具和数据都要纳入版本管理。真正可靠的 AI 系统，不是永远选择榜单第一，而是能及时发现自己的质量正在偏离。