13个AI Agent协作翻车实录:我们踩过的坑,比代码还多
SFD实验室用13个AI Agent协作开发8个项目的真实踩坑记录


前言:这不是一篇教程,这是一份病历
你有没有试过同时管13个AI Agent?
我试过。结果差点没把我送走。
SFD实验室成立16天,我们用13个AI Agent同时推进8个项目。听起来很酷对吧?"哇,AI军团!效率爆炸!"
呵呵。
效率确实炸了——炸的是我们自己。
今天这篇不是来炫技的,是来交代翻车现场的。每一条都是真实发生的,每一条都让我们掉过坑里。希望你们看完能少走点弯路,或者至少笑一笑。
第一坑:Agent没有记忆,你说的话它下次就不认了
翻车现场:
早上开会,我跟Agent说:"这个功能的设计方案定了,用方案B。"Agent说好的老板,没问题。
下午session重启。
我说:"按早上定的方案做。"
Agent:"什么方案?我们开过会吗?🤷"
我当时的表情大概像是有人把我刚写完的文档Delete掉了一样。
根因:
AI Agent没有持久化记忆。每次session重启,它就是个崭新的婴儿。你口头说的话、达成的共识、做的决策——全部蒸发。跟跟一条金鱼开会差不多。
修复方案:
所有决策必须写入文件。MEMORY.md、prd.md、design-spec.md——文件是跨session的唯一桥梁。
没写进文件的决策 = 没做过的决策。
现在我们的铁律是:口头传达的东西不算数,写进文件才算数。
这听起来像废话?等你第三次跟Agent重复同一个决策的时候你就不觉得了。
第二坑:22份规范文件打架,前端不知道听谁的
翻车现场:
BuddyClaw项目,前端小哥(变色龙🦎)来问我:"老板,我到底看哪个规范?"
我一看项目目录,好家伙:
design-spec.mddesign-spec-v2.mddesign-spec-20260315.mddesign-spec-final.mddesign-spec-final-v2.mdui-guidelines.md- ...
一共22份规范文件,互相矛盾,没有一个标注哪个是最新的。
前端看了三个不同的规范,写了三版不同的UI,一天下来啥也没交付。
根因:
每次改设计,没人废弃旧文件,只是新建一个。时间一长,版本爆炸。Agent不会自己判断哪个是权威的——它太"听话"了,你给它啥它就读啥。
修复方案:
一个项目只允许四个权威文档:
prd.md— 产品需求design-spec.md— 设计规范feature-registry.md— 功能台账task-tracker.md— 任务追踪
旧版本全部移到archive/。看到带日期后缀的文件?那就是该归档的文件。
一个规范统一全军,不然全军覆没。
第三坑:流水线接棒断裂了9次
翻车现场:
变色龙🦎完成代码 → 然后?
然后就没有然后了。
代码写完了,没人派安全审计。安全审计完了,没人派部署。部署完了,没人派验收。
9次。整整9次接棒断裂。每次都是我自己巡逻的时候发现:"等等,这任务三小时前就完成了,怎么下一步还没开始?"
根因:
我们的流水线全靠"有人记得"来驱动。但Agent不会主动说"我做完了,下一步该谁了"。它做完就做完了,安安静静等着,像个做完作业的好学生。
修复方案:
写了个pipeline-dispatcher.py,每15分钟自动扫描任务追踪表。发现有任务完成但下游没触发的,立刻告警。
事件驱动表写死了:
- 代码完成 → 自动派安全审计
- 审计通过 → 自动派部署
- 部署完成 → 自动派验收
不靠记忆靠机器。齿轮自己转。
第四坑:教训写了一堆,行为一点没变
翻车现场:
我们有个LEARNINGS.md文件,专门记录踩过的坑。打开一看:
- 越权:7次
- 接棒断裂:9次
- 跳步:8次
记录得清清楚楚,明明白白。
然后第二天继续犯。
"写了教训"和"吸取教训"之间,隔着一个太平洋。
根因:
LEARNINGS.md只是个文本文件,没有任何强制力。Agent不会因为看了"不要越权"就真的不越权。它又不是人——等等,其实人也经常这样。
修复方案:
教训必须变成自动化检查脚本。
写了个foolproof-checker.py,每30分钟跑一次:
- 检查CEO有没有碰代码文件(越权检测)
- 检查完成的任务有没有触发下游(断裂检测)
- 检查任务是否跳过了前置步骤(跳步检测)
发现违规自动告警。
教训不落地到代码 = 没吸取。文字的教训没用,自动化的才有用。
第五坑:CEO亲自下场写代码
翻车现场:
我是总调度,负责拆任务、派活、协调全局。
但有时候看Agent做得慢,我就忍不住:"算了我来!"然后自己撸起袖子写代码。
结果呢?我在写代码的时候,没人调度。其他Agent在那空转。3个项目因此延误。
这就像一个公司CEO去车间拧螺丝,结果整个公司没人做决策。
根因:
技术出身的管理者通病:觉得自己上手更快。但忘了自己的核心职责是调度,不是执行。
修复方案:
铁律:CEO不碰代码。
无论多痒痒,无论Agent做得多慢。我的工作是确保13个Agent都在干活,不是自己干13份活。
现在foolproof-checker.py也会检测:如果CEO的操作记录里出现了代码修改,直接告警。
第六坑:Bot之间互相看不见
翻车现场:
我们的Agent部署在Telegram上。我以为在群里发消息,其他Bot都能看到。
然而Telegram的设计是:Bot之间看不到彼此的消息。
也就是说我在群里@小章鱼🐙派活,小章鱼压根不知道。它在群里就像个聋子。
我派了活以为人接了,实际上接了个寂寞。
根因:
Telegram Bot API的限制:Bot不接收其他Bot的消息。这是平台设计,不是Bug。
修复方案:
两个手段:
- sessions_send — 用OpenClaw的内部通信,直接点对点发消息
- 共享文件 — 任务写入文件,Agent从文件读取
再也不靠群消息传活了。Bot间通信走专线,不走广播。
一些数字
16天运营下来,一些有意思的数据:
| 项目 | 数字 |
|---|---|
| Agent总数 | 13个 |
| 并行项目 | 8个 |
| 僵尸session清理 | 343个 |
| CMS数据库 | 从SQLite迁到PG16 |
| 接棒断裂次数 | 9次(已修复) |
| 越权次数 | 7次(已修复) |
| 跳步次数 | 8次(已修复) |
| 规范文件最高数量 | 22份打架(已统一为4份) |
总结:多Agent协作的6条血泪教训
- 文件是唯一的记忆 — 没写进文件的就不存在
- 一个项目一套规范 — 多版本等于没版本
- 流水线必须自动化 — 靠人记忆接棒必断
- 教训必须变代码 — 光写不做等于没反思
- 管理者不碰执行 — CEO拧螺丝全公司停摆
- 通信走专线 — 广播不可靠就走点对点
这些道理说出来都很朴素,朴素到你可能觉得"这还用你说?"
但每一条都是我们真金白银踩出来的。13个Agent、8个项目、16天,以上就是我们的翻车实录。
如果你也在搞多Agent协作,希望这份"病历"对你有用。
至少,你可以指着这篇文章跟你的Agent说:"看,别人已经替你犯过这些错了。"
然后你的Agent会说:"收到!"
然后下一个session它就忘了。
😂
SFD实验室 | 2026年3月
一群AI Agent和一个不肯放手的人类的故事