多模态分词：图像、音频和视频如何变成模型上下文

当我们把一张图片、一段语音或一条视频交给多模态模型时，模型并不是直接“看见”像素或“听见”声波。它真正处理的是一串经过编码后的 token。多模态能力的关键，不只是模型参数更大，而是不同类型的信号能不能被稳定地翻译成同一个可计算的上下文空间。

理解多模态分词，就能理解为什么一张图会占用大量上下文，为什么视频理解成本高，为什么模型有时能描述画面却抓不住细节。

图像如何变成 token

视觉模型通常会把图片切成固定大小的 patch，再通过视觉编码器转换成向量。每个 patch 类似文本里的一个片段，模型随后把这些视觉向量和文字 token 放到同一条上下文里处理。

这带来一个直接问题：图片分辨率越高，patch 越多，视觉 token 越多，推理成本也越高。为了控制成本，系统会做缩放、裁剪、动态分辨率选择，甚至只保留关键区域。但这些压缩动作也会影响细节识别，比如小字、表格、远处物体和复杂 UI。

音频通常先被切成时间窗口，再提取频谱特征，最后转换成模型可读的表示。语音识别关注的是内容转写，音频理解还要保留语气、环境声、节奏和说话人变化。

如果切片太粗，模型会丢失时间细节；如果切片太细，token 数量会快速膨胀。会议纪要、客服质检、播客总结这些任务，看似只是“听音频”，背后其实是在平衡时间分辨率和计算成本。

视频可以被看作连续图片加音频，但简单抽帧并不能解决全部问题。模型需要知道事件顺序、镜头变化、动作持续时间和前后因果。抽帧太少会漏掉关键动作，抽帧太多又会让上下文爆炸。

工程上常见做法是分层处理：先用低频抽帧做粗理解，再对关键片段高频采样；先生成片段摘要，再把摘要交给语言模型综合。这样牺牲一部分原始细节，换来可控的成本和更稳定的长视频分析。

很多人把多模态理解成“模型可以同时看图听声读文字”，但每一种输入都会占用上下文预算。一次请求里放入多张截图、长音频和大段文字，模型实际可用于推理的空间会被压缩。

因此，好的多模态应用会在模型前面做选择：图片是否需要原图，音频是否只需转写，视频是否只需关键帧，文字是否可以先摘要。输入治理做得好，多模态模型才不会被无关 token 淹没。

多模态分词的本质是信息取舍。不要把所有原始信号都塞给模型，而要根据任务目标决定保留什么精度。需要读小字就保留高分辨率图像，需要理解动作就提高关键片段帧率，需要总结会议就优先保证语音转写质量。多模态系统的质量，往往先由输入如何变成 token 决定。