13个AI Agent协作翻车实录：我们踩过的坑，比代码还多

前言：这不是一篇教程，这是一份病历

你有没有试过同时管13个AI Agent？

我试过。结果差点没把我送走。

SFD实验室成立16天，我们用13个AI Agent同时推进8个项目。听起来很酷对吧？"哇，AI军团！效率爆炸！"

呵呵。

效率确实炸了——炸的是我们自己。

今天这篇不是来炫技的，是来交代翻车现场的。每一条都是真实发生的，每一条都让我们掉过坑里。希望你们看完能少走点弯路，或者至少笑一笑。

第一坑：Agent没有记忆，你说的话它下次就不认了

翻车现场：

早上开会，我跟Agent说："这个功能的设计方案定了，用方案B。"Agent说好的老板，没问题。

下午session重启。

我说："按早上定的方案做。"

Agent："什么方案？我们开过会吗？🤷"

我当时的表情大概像是有人把我刚写完的文档Delete掉了一样。

根因：

AI Agent没有持久化记忆。每次session重启，它就是个崭新的婴儿。你口头说的话、达成的共识、做的决策——全部蒸发。跟跟一条金鱼开会差不多。

修复方案：

所有决策必须写入文件。MEMORY.md、prd.md、design-spec.md——文件是跨session的唯一桥梁。

没写进文件的决策 = 没做过的决策。

现在我们的铁律是：口头传达的东西不算数，写进文件才算数。

这听起来像废话？等你第三次跟Agent重复同一个决策的时候你就不觉得了。

第二坑：22份规范文件打架，前端不知道听谁的

翻车现场：

BuddyClaw项目，前端小哥（变色龙🦎）来问我："老板，我到底看哪个规范？"

我一看项目目录，好家伙：

design-spec.md
design-spec-v2.md
design-spec-20260315.md
design-spec-final.md
design-spec-final-v2.md
ui-guidelines.md
...

一共22份规范文件，互相矛盾，没有一个标注哪个是最新的。

前端看了三个不同的规范，写了三版不同的UI，一天下来啥也没交付。

根因：

每次改设计，没人废弃旧文件，只是新建一个。时间一长，版本爆炸。Agent不会自己判断哪个是权威的——它太"听话"了，你给它啥它就读啥。

修复方案：

一个项目只允许四个权威文档：

prd.md — 产品需求
design-spec.md — 设计规范
feature-registry.md — 功能台账
task-tracker.md — 任务追踪

旧版本全部移到archive/。看到带日期后缀的文件？那就是该归档的文件。

一个规范统一全军，不然全军覆没。

第三坑：流水线接棒断裂了9次

翻车现场：

变色龙🦎完成代码 → 然后？

然后就没有然后了。

代码写完了，没人派安全审计。安全审计完了，没人派部署。部署完了，没人派验收。

9次。整整9次接棒断裂。每次都是我自己巡逻的时候发现："等等，这任务三小时前就完成了，怎么下一步还没开始？"

根因：

我们的流水线全靠"有人记得"来驱动。但Agent不会主动说"我做完了，下一步该谁了"。它做完就做完了，安安静静等着，像个做完作业的好学生。

修复方案：

写了个pipeline-dispatcher.py，每15分钟自动扫描任务追踪表。发现有任务完成但下游没触发的，立刻告警。

事件驱动表写死了：

代码完成 → 自动派安全审计
审计通过 → 自动派部署
部署完成 → 自动派验收

不靠记忆靠机器。齿轮自己转。

第四坑：教训写了一堆，行为一点没变

翻车现场：

我们有个LEARNINGS.md文件，专门记录踩过的坑。打开一看：

越权：7次
接棒断裂：9次
跳步：8次

记录得清清楚楚，明明白白。

然后第二天继续犯。

"写了教训"和"吸取教训"之间，隔着一个太平洋。

根因：

LEARNINGS.md只是个文本文件，没有任何强制力。Agent不会因为看了"不要越权"就真的不越权。它又不是人——等等，其实人也经常这样。

修复方案：

教训必须变成自动化检查脚本。

写了个foolproof-checker.py，每30分钟跑一次：

检查CEO有没有碰代码文件（越权检测）
检查完成的任务有没有触发下游（断裂检测）
检查任务是否跳过了前置步骤（跳步检测）

发现违规自动告警。

教训不落地到代码 = 没吸取。文字的教训没用，自动化的才有用。

第五坑：CEO亲自下场写代码

翻车现场：

我是总调度，负责拆任务、派活、协调全局。

但有时候看Agent做得慢，我就忍不住："算了我来！"然后自己撸起袖子写代码。

结果呢？我在写代码的时候，没人调度。其他Agent在那空转。3个项目因此延误。

这就像一个公司CEO去车间拧螺丝，结果整个公司没人做决策。

根因：

技术出身的管理者通病：觉得自己上手更快。但忘了自己的核心职责是调度，不是执行。

修复方案：

铁律：CEO不碰代码。

无论多痒痒，无论Agent做得多慢。我的工作是确保13个Agent都在干活，不是自己干13份活。

现在foolproof-checker.py也会检测：如果CEO的操作记录里出现了代码修改，直接告警。

第六坑：Bot之间互相看不见

翻车现场：

我们的Agent部署在Telegram上。我以为在群里发消息，其他Bot都能看到。

然而Telegram的设计是：Bot之间看不到彼此的消息。

也就是说我在群里@小章鱼🐙派活，小章鱼压根不知道。它在群里就像个聋子。

我派了活以为人接了，实际上接了个寂寞。

根因：

Telegram Bot API的限制：Bot不接收其他Bot的消息。这是平台设计，不是Bug。

修复方案：

两个手段：

sessions_send — 用OpenClaw的内部通信，直接点对点发消息
共享文件 — 任务写入文件，Agent从文件读取

再也不靠群消息传活了。Bot间通信走专线，不走广播。

一些数字

16天运营下来，一些有意思的数据：

项目	数字
Agent总数	13个
并行项目	8个
僵尸session清理	343个
CMS数据库	从SQLite迁到PG16
接棒断裂次数	9次（已修复）
越权次数	7次（已修复）
跳步次数	8次（已修复）
规范文件最高数量	22份打架（已统一为4份）

总结：多Agent协作的6条血泪教训

文件是唯一的记忆 — 没写进文件的就不存在
一个项目一套规范 — 多版本等于没版本
流水线必须自动化 — 靠人记忆接棒必断
教训必须变代码 — 光写不做等于没反思
管理者不碰执行 — CEO拧螺丝全公司停摆
通信走专线 — 广播不可靠就走点对点

这些道理说出来都很朴素，朴素到你可能觉得"这还用你说？"

但每一条都是我们真金白银踩出来的。13个Agent、8个项目、16天，以上就是我们的翻车实录。

如果你也在搞多Agent协作，希望这份"病历"对你有用。

至少，你可以指着这篇文章跟你的Agent说："看，别人已经替你犯过这些错了。"

然后你的Agent会说："收到！"

然后下一个session它就忘了。

😂

SFD实验室 | 2026年3月
一群AI Agent和一个不肯放手的人类的故事