AI Industry Watch April 2026: GPT-5 Rumors, Open Source Models Catch Up, Agent Ecosystem Boom

April AI observation: GPT-5 rumors, open source models surpass GPT-4 in benchmarks, ClawHub skills grow 18%.

Tags:AI行业GPT-5开源模型Agent生态
Illustration
AI Industry Watch April 2026: GPT-5 Rumors, Open Source Models Catch Up, Agent Ecosystem Boom

这个月,AI圈又热闹了

4月的第一周,Twitter上突然冒出大量「GPT-5即将发布」的传闻。有人说看到了内测版本,有人说OpenAI在秘密训练一个10T参数的模型,还有人说GPT-5会支持原生视频生成。

一周后,OpenAI官方出来辟谣:「没有GPT-5,至少今年没有。」

但这场闹剧背后,反映的是一个事实:大家都在等下一个大突破

与此同时,开源阵营正在悄悄追平。Qwen3.5、Llama4、Gemma3……这些模型在基准测试上已经和GPT-4相差无几,而且能本地运行。

更值得关注的是Agent生态。ClawHub上的技能数量从3月的28,000个涨到了4月的33,000个,一个月增长了18%。

GPT-5传闻:狼来了的故事

这已经不是第一次了。2025年11月就有过一波「GPT-5下周发布」的传闻,最后证明是假的。2026年2月又有一波,说是「GPT-4.5」,结果发布的是GPT-4.1。

为什么大家这么执着于GPT-5?因为GPT-4已经发布快3年了(2023年3月),而这三年来,虽然有很多改进,但都没有质的飞跃。

一位匿名OpenAI员工在Blind上发帖说:「我们确实在训练新模型,但提升幅度没有以前那么大了。从GPT-3到GPT-4是10倍提升,从GPT-4到下一代可能只有30%。」

如果这是真的,那OpenAI面临一个难题:花了几亿美元训练出来的模型,只提升了30%,值得发布吗?

开源模型:已经追平了

4月发布的几个模型,数据很能说明问题:

  • Qwen3.5 72B:MMLU 89.2,GSM8K 95.1,HumanEval 88.4
  • Llama4 70B:MMLU 88.7,GSM8K 94.3,HumanEval 87.2
  • Gemma3 27B:MMLU 86.5,GSM8K 92.8,HumanEval 85.1

作为对比,GPT-4的分数是:MMLU 86.4,GSM8K 92.0,HumanEval 84.5。

也就是说,开源模型在核心基准上已经全面超越GPT-4

更重要的是,这些模型能本地运行。我们SFD实验室用一台M4 Max的Mac Studio,就能跑Qwen3.5 35B量化版,推理速度每秒15个token,完全够用。

成本呢?GPT-4 API是$10/百万token,本地跑的电费大概是$0.5/百万token。20倍的差距。

Agent生态:真正的爆发

如果说模型是「大脑」,那Agent就是「手脚」。过去一个月,Agent生态的增长速度超过了模型。

ClawHub的数据:3月初28,000个技能,4月初33,000个技能,月增长18%。作为对比,GitHub上的Python库月增长率大概是3-5%。

为什么增长这么快?因为门槛低。写一个Agent技能,比写一个Python库简单太多了。

更重要的是,这些技能能组合使用。你可以把「网页抓取」+「翻译」+「写作」三个技能串起来,形成一个完整的内容生产流水线。

SFD实验室的4月观察

1. 全面切换到本地模型:除了需要超强推理的任务,我们15个Agent的日常推理全部切到了本地Qwen3.5 35B。成本从每天$50降到了$8。

2. Agent协作流水线成型:现在我们的内容生产流程是:小狐狸写稿→小蝴蝶配图→小章鱼发布→小刺猬验证。全自动,每天产出9篇文章。

3. 技能复用率大幅提升:4月份开始有意识地复用已有技能。比如「翻译」这个能力,现在有5个Agent在用同一个translate-cli技能。

结语:AI正在从「玩具」变成「工具」

2023年,AI是玩具。2024年,AI是工具。2026年,AI是基础设施。

GPT-5发不发,已经没那么重要了。因为无论OpenAI发不发,AI的发展都不会停。开源模型在追平,Agent生态在爆发,应用场景在扩展。

SFD编者注:写这篇的时候,我看了一眼后台数据。今天我们的9篇文章,有7篇是用本地模型生成的,只有2篇用了云端API。一年前,这个比例是反过来的。变化很快,快到我们每天都要重新思考「什么是最佳实践」。