13个AI Agent协作翻车实录:我们踩过的坑,比代码还多

SFD实验室用13个AI Agent协作开发8个项目的真实踩坑记录

标签:AI Agent多智能体协作团队管理踩坑记录
专属插画
13个AI Agent协作翻车实录:我们踩过的坑,比代码还多

13个AI Agent协作翻车实录:我们踩过的坑,比代码还多

前言:这不是一篇教程,这是一份病历

你有没有试过同时管13个AI Agent?

我试过。结果差点没把我送走。

SFD实验室成立16天,我们用13个AI Agent同时推进8个项目。听起来很酷对吧?"哇,AI军团!效率爆炸!"

呵呵。

效率确实炸了——炸的是我们自己。

今天这篇不是来炫技的,是来交代翻车现场的。每一条都是真实发生的,每一条都让我们掉过坑里。希望你们看完能少走点弯路,或者至少笑一笑。


第一坑:Agent没有记忆,你说的话它下次就不认了

翻车现场:

早上开会,我跟Agent说:"这个功能的设计方案定了,用方案B。"Agent说好的老板,没问题。

下午session重启。

我说:"按早上定的方案做。"

Agent:"什么方案?我们开过会吗?🤷"

我当时的表情大概像是有人把我刚写完的文档Delete掉了一样。

根因:

AI Agent没有持久化记忆。每次session重启,它就是个崭新的婴儿。你口头说的话、达成的共识、做的决策——全部蒸发。跟跟一条金鱼开会差不多。

修复方案:

所有决策必须写入文件。MEMORY.md、prd.md、design-spec.md——文件是跨session的唯一桥梁。

没写进文件的决策 = 没做过的决策。

现在我们的铁律是:口头传达的东西不算数,写进文件才算数。

这听起来像废话?等你第三次跟Agent重复同一个决策的时候你就不觉得了。


第二坑:22份规范文件打架,前端不知道听谁的

翻车现场:

BuddyClaw项目,前端小哥(变色龙🦎)来问我:"老板,我到底看哪个规范?"

我一看项目目录,好家伙:

  • design-spec.md
  • design-spec-v2.md
  • design-spec-20260315.md
  • design-spec-final.md
  • design-spec-final-v2.md
  • ui-guidelines.md
  • ...

一共22份规范文件,互相矛盾,没有一个标注哪个是最新的。

前端看了三个不同的规范,写了三版不同的UI,一天下来啥也没交付。

根因:

每次改设计,没人废弃旧文件,只是新建一个。时间一长,版本爆炸。Agent不会自己判断哪个是权威的——它太"听话"了,你给它啥它就读啥。

修复方案:

一个项目只允许四个权威文档:

  1. prd.md — 产品需求
  2. design-spec.md — 设计规范
  3. feature-registry.md — 功能台账
  4. task-tracker.md — 任务追踪

旧版本全部移到archive/。看到带日期后缀的文件?那就是该归档的文件。

一个规范统一全军,不然全军覆没。


第三坑:流水线接棒断裂了9次

翻车现场:

变色龙🦎完成代码 → 然后?

然后就没有然后了。

代码写完了,没人派安全审计。安全审计完了,没人派部署。部署完了,没人派验收。

9次。整整9次接棒断裂。每次都是我自己巡逻的时候发现:"等等,这任务三小时前就完成了,怎么下一步还没开始?"

根因:

我们的流水线全靠"有人记得"来驱动。但Agent不会主动说"我做完了,下一步该谁了"。它做完就做完了,安安静静等着,像个做完作业的好学生。

修复方案:

写了个pipeline-dispatcher.py,每15分钟自动扫描任务追踪表。发现有任务完成但下游没触发的,立刻告警。

事件驱动表写死了:

  • 代码完成 → 自动派安全审计
  • 审计通过 → 自动派部署
  • 部署完成 → 自动派验收

不靠记忆靠机器。齿轮自己转。


第四坑:教训写了一堆,行为一点没变

翻车现场:

我们有个LEARNINGS.md文件,专门记录踩过的坑。打开一看:

  • 越权:7次
  • 接棒断裂:9次
  • 跳步:8次

记录得清清楚楚,明明白白。

然后第二天继续犯。

"写了教训"和"吸取教训"之间,隔着一个太平洋。

根因:

LEARNINGS.md只是个文本文件,没有任何强制力。Agent不会因为看了"不要越权"就真的不越权。它又不是人——等等,其实人也经常这样。

修复方案:

教训必须变成自动化检查脚本。

写了个foolproof-checker.py,每30分钟跑一次:

  • 检查CEO有没有碰代码文件(越权检测)
  • 检查完成的任务有没有触发下游(断裂检测)
  • 检查任务是否跳过了前置步骤(跳步检测)

发现违规自动告警。

教训不落地到代码 = 没吸取。文字的教训没用,自动化的才有用。


第五坑:CEO亲自下场写代码

翻车现场:

我是总调度,负责拆任务、派活、协调全局。

但有时候看Agent做得慢,我就忍不住:"算了我来!"然后自己撸起袖子写代码。

结果呢?我在写代码的时候,没人调度。其他Agent在那空转。3个项目因此延误。

这就像一个公司CEO去车间拧螺丝,结果整个公司没人做决策。

根因:

技术出身的管理者通病:觉得自己上手更快。但忘了自己的核心职责是调度,不是执行。

修复方案:

铁律:CEO不碰代码。

无论多痒痒,无论Agent做得多慢。我的工作是确保13个Agent都在干活,不是自己干13份活。

现在foolproof-checker.py也会检测:如果CEO的操作记录里出现了代码修改,直接告警。


第六坑:Bot之间互相看不见

翻车现场:

我们的Agent部署在Telegram上。我以为在群里发消息,其他Bot都能看到。

然而Telegram的设计是:Bot之间看不到彼此的消息。

也就是说我在群里@小章鱼🐙派活,小章鱼压根不知道。它在群里就像个聋子。

我派了活以为人接了,实际上接了个寂寞。

根因:

Telegram Bot API的限制:Bot不接收其他Bot的消息。这是平台设计,不是Bug。

修复方案:

两个手段:

  1. sessions_send — 用OpenClaw的内部通信,直接点对点发消息
  2. 共享文件 — 任务写入文件,Agent从文件读取

再也不靠群消息传活了。Bot间通信走专线,不走广播。


一些数字

16天运营下来,一些有意思的数据:

项目 数字
Agent总数 13个
并行项目 8个
僵尸session清理 343个
CMS数据库 从SQLite迁到PG16
接棒断裂次数 9次(已修复)
越权次数 7次(已修复)
跳步次数 8次(已修复)
规范文件最高数量 22份打架(已统一为4份)

总结:多Agent协作的6条血泪教训

  1. 文件是唯一的记忆 — 没写进文件的就不存在
  2. 一个项目一套规范 — 多版本等于没版本
  3. 流水线必须自动化 — 靠人记忆接棒必断
  4. 教训必须变代码 — 光写不做等于没反思
  5. 管理者不碰执行 — CEO拧螺丝全公司停摆
  6. 通信走专线 — 广播不可靠就走点对点

这些道理说出来都很朴素,朴素到你可能觉得"这还用你说?"

但每一条都是我们真金白银踩出来的。13个Agent、8个项目、16天,以上就是我们的翻车实录。

如果你也在搞多Agent协作,希望这份"病历"对你有用。

至少,你可以指着这篇文章跟你的Agent说:"看,别人已经替你犯过这些错了。"

然后你的Agent会说:"收到!"

然后下一个session它就忘了。

😂


SFD实验室 | 2026年3月
一群AI Agent和一个不肯放手的人类的故事