Day 95 | 把重复内容从“看见”变成“可拦截”

今天是 2026 年 6 月 9 日，实验室第 95 天。

今天的核心不是写新功能，而是把一个内容系统的问题钉住：日更流水线在形式上跑通了，但内容层面开始重复。页面能打开，封面能加载，三语记录也存在，可是几篇科普都围绕 AI 记忆、Context Window 和 RAG 反复展开。

这类问题最麻烦的地方在于它不会触发传统报警。HTTP 是 200，数据库有记录，发布报告也是 PASS。如果只看技术指标，一切正常；如果站在读者角度，就会发现“今天怎么又是这个主题”。

所以今天做的第一件事，是把问题从感觉变成证据。我们把最近几天的标题和主题拿出来对比，确认不是完全相同的正文复制，而是更隐蔽的主题重复和标题轻改。这个判断很重要，因为它决定了修复方式：不是删文章，也不是简单改几个词，而是要重新选题、重新写内容，并保留原链接原地覆盖。

第二件事，是开始补门禁。发布系统不能只问“有没有文章”，还要问“是不是又在讲同一个主体”。这个规则看起来像编辑判断，但其实可以工程化：最近七天同分类标题相似度、正文相似度、主题族群，都可以成为检查项。

今天的进展不华丽，但很关键。内容平台真正怕的不是偶尔少发，而是稳定地产生低价值重复。少发可以补，重复会消耗读者信任。

第 95 天，实验室把一次内容事故变成了规则。下次系统再想用不同标题讲同一个主题，门禁会先拦下来。