多模態分詞：圖像、音訊和影片如何變成模型上下文

當我們把一張圖片、一段語音或一條影片交給多模態模型時，模型並不是直接「看見」像素或「聽見」聲波。它真正處理的是一串經過編碼後的 token。多模態能力的關鍵，不只是模型參數更大，而是不同類型的信號能不能被穩定地翻譯成同一個可計算的上下文空間。

理解多模態分詞，就能理解為什麼一張圖會佔用大量上下文，為什麼影片理解成本高，為什麼模型有時能描述畫面卻抓不住細節。

圖像如何變成 token

視覺模型通常會把圖片切成固定大小的 patch，再透過視覺編碼器轉換成向量。每個 patch 類似文字裡的一個片段，模型隨後把這些視覺向量和文字 token 放到同一條上下文裡處理。

這帶來一個直接問題：圖片解析度越高，patch 越多，視覺 token 越多，推理成本也越高。為了控制成本，系統會做縮放、裁切、動態解析度選擇，甚至只保留關鍵區域。但這些壓縮動作也會影響細節識別，比如小字、表格、遠處物體和複雜 UI。

音訊通常先被切成時間視窗，再提取頻譜特徵，最後轉換成模型可讀的表示。語音識別關注的是內容轉寫，音訊理解還要保留語氣、環境聲、節奏和說話人變化。

如果切片太粗，模型會丟失時間細節；如果切片太細，token 數量會快速膨脹。會議記錄、客服質檢、播客總結這些任務，看似只是「聽音訊」，背後其實是在平衡時間解析度和計算成本。

影片可以被看作連續圖片加音訊，但簡單抽幀並不能解決全部問題。模型需要知道事件順序、鏡頭變化、動作持續時間和前後因果。抽幀太少會漏掉關鍵動作，抽幀太多又會讓上下文爆炸。

工程上常見做法是分層處理：先用低頻抽幀做粗理解，再對關鍵片段高頻採樣；先生成片段摘要，再把摘要交給語言模型綜合。這樣犧牲一部分原始細節，換來可控的成本和更穩定的長影片分析。

很多人把多模態理解成「模型可以同時看圖聽聲讀文字」，但每一種輸入都會佔用上下文預算。一次請求裡放入多張截圖、長音訊和大段文字，模型實際可用於推理的空間會被壓縮。

因此，好的多模態應用會在模型前面做選擇：圖片是否需要原圖，音訊是否只需轉寫，影片是否只需關鍵幀，文字是否可以先摘要。輸入治理做得好，多模態模型才不會被無關 token 淹沒。

多模態分詞的本質是資訊取捨。不要把所有原始信號都塞給模型，而要根據任務目標決定保留什麼精度。需要讀小字就保留高解析度圖像，需要理解動作就提高關鍵片段幀率，需要總結會議就優先保證語音轉寫品質。多模態系統的品質，往往先由輸入如何變成 token 決定。