端侧 AI 运行时：MLX、Core ML、WebGPU 什么时候值得用

过去，AI 应用默认把推理请求发到云端。这样做简单、集中、容易扩容，也方便统一管理模型。但随着本地芯片算力提升，端侧运行时开始变得现实：Mac 上的 MLX，Apple 平台的 Core ML，浏览器里的 WebGPU，都在把一部分推理能力拉回用户设备。

端侧 AI 不是云端 AI 的替代品，而是另一种部署边界。它适合对延迟、隐私、离线可用性和成本敏感的任务。

MLX 适合快速本地实验

MLX 的优势在于贴近 Apple Silicon，开发者可以在 Mac 上快速加载、微调或运行中小模型。它对研究和原型很友好：不用先搭复杂服务，不用排 GPU 队列，很多实验在本机就能完成。

它的限制也很清楚。端侧内存和散热有限，长上下文、大并发和超大模型仍然不适合完全压在本地。MLX 更像是一个本地推理与实验工具，让团队快速验证模型、prompt、格式和小规模自动化流程。

Core ML 的重点不是灵活实验，而是稳定集成到 Apple 生态应用里。模型经过转换和优化后，可以利用系统级加速能力，并与 App 权限、隐私和离线体验结合。

如果任务是图片分类、文本改写、语音增强、轻量摘要或设备内个性化，Core ML 会很有价值。它让用户数据不必离开设备，也能降低云端调用成本。但模型更新、版本兼容和转换质量需要更严格的发布流程。

WebGPU 的意义在于降低分发门槛。用户不需要安装本地客户端，只要浏览器支持，就可以运行一部分模型能力。对教育演示、轻量工具、隐私敏感的小任务和离线网页应用来说，这很有吸引力。

它的问题是设备差异巨大。不同浏览器、显卡、驱动和内存限制都会影响稳定性。WebGPU 适合渐进增强：能本地跑就本地跑，不能跑就回退云端，而不是把所有用户都强行绑定到同一条路径。

端侧推理最适合三类场景。第一是低延迟交互，例如输入法、实时补全、简单图片处理。第二是隐私敏感任务，例如本地文档摘要、个人数据分类。第三是高频低价值请求，例如大量格式化、标签生成、草稿清洗。

不适合端侧的任务也很明确：复杂推理、跨文档检索、大规模批处理、高可靠业务决策。这些仍然更适合云端模型和集中监控。

选择端侧运行时，不应从“能不能跑模型”开始，而应从产品约束开始：是否需要离线，是否能接受设备差异，是否需要统一质量，是否值得承担模型分发成本。成熟架构通常是混合的：端侧处理高频轻任务和隐私敏感输入，云端负责重推理、长上下文和统一审核。这样既能降低成本，也能保持质量边界。