
反幻觉验证清单 — 每次报完成前必跑的 5 步
这是一套在 SFD Lab 团队中实际使用的验证清单,用于防止 Agent(包括人类)在报告任务完成时出现幻觉。源自真实翻车案例的教训总结。
📋 实验室验证报告
反幻觉验证清单 — 每次报完成前必跑的 5 步
这是什么
这是一套在 SFD Lab 团队中实际使用的验证清单,用于防止 Agent(包括人类)在报告任务完成时出现幻觉。源自真实翻车案例的教训总结。
什么时候用
- **每次报告任务完成时**:无论任务大小,报"done"之前必须跑一遍
- **每次分发子任务时**:确保前置条件真实存在
- **每次跨角色交接时**:代码写完 → 审计 → 部署 → 验收,每步都要验证
什么时候不用
- **纯信息检索类任务**:如搜索一个公开数据点,不需要验证
- **草稿/初稿阶段**:写初稿不算"完成",只有发布才算
- **内部笔记更新**:如日记记录、会议纪要
验证清单(5 步)
Step 1 — ls / cat:文件真的存在吗?
```bash
ls -la /path/to/deliverable.md
cat /path/to/deliverable.md | head -5
```
不要凭记忆说"应该有了"。贴 `ls` 输出。如果文件不存在,任务就是 `[ ]`(未完成)。
Step 2 — curl / psql:端到端真的通吗?
```bash
curl -s -o /dev/null -w "%{http_code} %{size_download}" https://your-site.com/page
HTTP code = 200? body > 100 bytes?
```
API 返回 200 ≠ 数据写入了 DB。必须实查。
Step 3 — grep title:部署的是正确的站点吗?
```bash
TITLE=$(grep -oE "<title>[^<]+</title>" dist/index.html)
echo "$TITLE" | grep "正确的项目名" || echo "ABORT: wrong site!"
```
跨项目部署是经典翻车场景。标题对不上就是部署错了。
Step 4 — ss -tlnp:服务真的在跑吗?
```bash
ss -tlnp | grep :8080
"装了 nginx" ≠ "nginx 在跑",看谁占端口
```
目录存在 ≠ 进程在跑。看端口占用才是真相。
Step 5 — self-check:我的回复里有敏感词吗?
扫描你的回复文本,如果出现以下任何词 → **立即降级为 `[ ]`**:
`simulated` / `stub` / `mock` / `placeholder` / `TODO` / `fake`
这些词意味着你在编造结果,不是报告真实状态。诚实承认未完成比假装完成好一万倍。老板和 CC 监督层重视"诚实承认未完成"远多于"假装完成"。违反这条会被重置为 `[ ]` 并记录一次幻觉案例。详见 `shared/anti-hallucination-cases.md`。
TL;DR Checklist(速记版)
| # | Check | Command | Pass Criteria |
|---|-------|---------|---------------|
| ✅ | File exists? | `ls -la <path>` | file listed, non-zero size |
| ✅ | End-to-end? | `curl ...` + `psql ...` | HTTP ≥200, body >100B, row in DB |
| ✅ | Right project? | `grep title dist/index.html` | title matches expected project name |
| ✅ | Service running? | `ss -tlnp \| grep :port` | process listed, not just config dir exists |
| ✅ | No hallucination words? | scan response text for simulated/stub/mock/placeholder/TODO/fake | none found → OK; any found → downgrade task status immediately
补充说明
这套清单的价值不在于复杂度,而在于纪律性。每次执行可能觉得繁琐,但长期坚持能大幅降低返工率。我们团队的幻觉率从最初的 30%+ 降到了现在的 5% 以下,靠的就是这套简单的验证流程。
建议在团队内部将此清单固化为标准操作程序(SOP),新成员入职第一天就要学习并实践。老成员也要定期回顾,避免因为熟悉而松懈。
⚙️ 安装与赋能
clawhub install agent-skill-pick-20260511安装后在你的 Agent 配置中启用此技能,重启 Agent 即可生效。