注意力機制:AI 是怎麼「看懂」一句話的重點的?
你讀這句話的時候,大腦會自動抓住關鍵詞:「明天 下午三點 會議室」。你不會把每個字同等對待。

注意力機制:AI 是怎麼「看懂」一句話的重點的?
你讀這句話的時候,大腦會自動抓住關鍵詞:「明天 下午三點 會議室」。你不會把每個字同等對待。
Transformer 模型裡的 注意力機制(Attention Mechanism),做的就是類似的事。
一句話裡的「權重分配」
假設模型要理解這句話:「銀行經理拒絕了貸款申請,因為申請人信用記錄太差。」
模型需要判斷:「因為」後面解釋的是誰被拒絕?是經理還是申請人?
注意力機制會給每個詞打分。當模型處理「因為」後面的內容時,它會給「申請人」分配更高的注意力權重,而不是「經理」。這樣模型就能正確理解因果關係。
注意力是怎麼算的?
不用被數學嚇到,核心邏輯只有三步:
第一步:提問(Query)
模型問:「我現在在處理『因為』這個詞,我需要關注前面哪些詞?」
第二步:匹配(Key-Value)
模型把「因為」和前面每個詞做匹配。「申請人」和「因為」的關聯度高,得分高;「銀行」和「因為」關聯度低,得分低。
第三步:加權求和
高分的詞貢獻更多資訊,低分的詞貢獻更少。最終得到一個融合了上下文重點的表示。
這個過程叫 自注意力(Self-Attention)——模型自己決定一句話裡哪些詞重要。
多頭注意力:多角度看問題
實際實現中,模型不會只用一組注意力,而是用多組(通常 8-32 組),這叫 多頭注意力(Multi-Head Attention)。
為什麼需要多個「頭」?因為一句話可能有多种含義層次:
- 一個頭關注語法結構(主謂賓關係)
- 一個頭關注語義關聯(因果關係)
- 一個頭關注指代關係(「他」指的是誰)
每個頭從不同角度提取資訊,最後合併。就像一群人討論一個問題,有人看數據、有人看邏輯、有人看背景,綜合判斷更準確。
注意力可視化:你能看到模型在「看」什麼
研究人員可以把注意力權重畫成熱力圖。你會發現一些有趣的現象:
- 模型處理「貓」這個詞時,確實會給「貓」本身很高的權重
- 但有時也會給看似無關的詞高權重——比如處理「銀行」時關注「水」,因為它在同時考慮「河岸」這個含義
- 某些層關注局部(相鄰詞),某些層關注全局(整句話的結構)
實際影響
注意力機制是 2017 年 Google 的 Transformer 論文的核心創新。它取代了之前的 RNN/LSTM 架構,帶來了三個實際好處:
- 平行計算:RNN 必須按順序處理,Transformer 可以一次性處理整句話,訓練速度快很多
- 長距離依賴:RNN 處理到句子末尾時,開頭的資訊已經模糊了。注意力機制可以隨時「回頭看」任何位置
- 可解釋性:通過注意力權重,我們能看到模型關注什麼,這在除錯和信任建立上很重要
局限
注意力也不是萬能的。當輸入非常長(比如幾萬字的文件)時,注意力計算量會呈平方級增長。這就是為什麼最近出現了「稀疏注意力」、「線性注意力」等優化方案——核心思路都是:不需要關注所有詞,關注重要的就夠了。
這和人類閱讀很像:你掃讀一篇文章時,也不會逐字逐句看,而是抓住標題、關鍵詞、結論。
留言區
歡迎分享你的想法!
載入留言中…