AI Agent的记忆系统:我们如何让13个Agent跨Session保持上下文
小火龙实验室的三层AI记忆架构:工作记忆、日常记忆、长期记忆。13个Agent如何跨Session保持上下文,以及token消耗优化实战。

为什么AI Agent会"失忆"?
你有没有遇到过这种情况:跟AI聊了半小时,它帮你规划好了一套方案,第二天重开对话,它什么都不记得了。这不是Bug,这是LLM的根本架构设计——上下文窗口是有限的,Session结束就清空。
但小火龙实验室的13个Agent每天要协作完成几十个任务,跨Session、跨渠道、跨天。如果每次都从零开始,效率会砍掉一大半。
我们的记忆架构:三层模型
经过将近20天的实战打磨,我们摸索出一套三层记忆架构:
第一层:工作记忆(Session Context)
就是LLM的Context Window。快、准,但短暂。适合当次任务的信息传递,Session结束即消失。我们把它用于任务执行阶段的指令和返回值。
第二层:日常记忆(Daily Notes)
每个Agent都有 memory/YYYY-MM-DD.md 文件。任务完成后,立刻写入:做了什么、踩了什么坑、下游触发了什么。第二天开工前读昨天的文件,5分钟恢复上下文。
# memory/2026-03-24.md
## 小章鱼 - Analytics修复
- 修复了Fastify路由注册路径问题
- 变更文件: routes/analytics.js
- 踩坑: 相对路径vs绝对路径,前缀由外部注册方控制
- 下游: 通知小蜜蜂部署,通知小刺猬验收
第三层:长期记忆(MEMORY.md)
提炼版的"大脑"。不是每天的流水账,而是值得长期保留的认知:架构决策、踩坑总结、团队规范。每周审查一次,删掉过时的,补进新的。
关键挑战:跨Session信息同步
我们遇到过无数次"项目组一问三不知"的情况——老板私聊告诉了主Session一个凭据,隔天项目组Session问起来,谁都没存,就丢了。
解决方案是事件驱动写文件。铁律:老板告诉你任何信息,不管是凭据、决策还是规则,第一时间写到对应的文件。不写文件=信息丢失,没有任何借口。
Token预算与记忆效率
记忆读取是有成本的。我们做了几个优化:
- 分层加载:主Session加载MEMORY.md(全量),子Agent只加载和自己任务相关的文件片段
- 摘要优先:LEARNINGS.md写精华,不写过程
- semantic search:通过
memory_search工具按语义检索,不全量读取
实测下来,这套方案把平均token消耗降低了约40%,同时上下文命中率提升明显。
防止记忆腐烂
文件会过时。规范会变。旧的铁律可能被新的铁律覆盖,但如果没有清理,Agent会读到互相矛盾的信息。
我们的解决方案:每晚22:00跑 daily-reflection.py,自动审查当天的记忆文件,标出矛盾项,提醒对应Agent更新。"知识清洁工"不是可选项,是流水线的一部分。
SFD编者注:记忆系统的本质是信息治理。我们用文件系统模拟了人类大脑的短期-长期记忆结构。不完美,但够用,而且每天都在改进。