注意力機制：AI 是怎麼「看懂」一句話的重點的？

你讀這句話的時候，大腦會自動抓住關鍵詞：「明天 下午三點 會議室」。你不會把每個字同等對待。

Transformer 模型裡的 注意力機制（Attention Mechanism），做的就是類似的事。

一句話裡的「權重分配」

假設模型要理解這句話：「銀行經理拒絕了貸款申請，因為申請人信用記錄太差。」

模型需要判斷：「因為」後面解釋的是誰被拒絕？是經理還是申請人？

注意力機制會給每個詞打分。當模型處理「因為」後面的內容時，它會給「申請人」分配更高的注意力權重，而不是「經理」。這樣模型就能正確理解因果關係。

不用被數學嚇到，核心邏輯只有三步：

第一步：提問（Query）
模型問：「我現在在處理『因為』這個詞，我需要關注前面哪些詞？」

第二步：匹配（Key-Value）
模型把「因為」和前面每個詞做匹配。「申請人」和「因為」的關聯度高，得分高；「銀行」和「因為」關聯度低，得分低。

第三步：加權求和
高分的詞貢獻更多資訊，低分的詞貢獻更少。最終得到一個融合了上下文重點的表示。

這個過程叫 自注意力（Self-Attention）——模型自己決定一句話裡哪些詞重要。

實際實現中，模型不會只用一組注意力，而是用多組（通常 8-32 組），這叫 多頭注意力（Multi-Head Attention）。

為什麼需要多個「頭」？因為一句話可能有多种含義層次：

每個頭從不同角度提取資訊，最後合併。就像一群人討論一個問題，有人看數據、有人看邏輯、有人看背景，綜合判斷更準確。

研究人員可以把注意力權重畫成熱力圖。你會發現一些有趣的現象：

注意力機制是 2017 年 Google 的 Transformer 論文的核心創新。它取代了之前的 RNN/LSTM 架構，帶來了三個實際好處：

注意力也不是萬能的。當輸入非常長（比如幾萬字的文件）時，注意力計算量會呈平方級增長。這就是為什麼最近出現了「稀疏注意力」、「線性注意力」等優化方案——核心思路都是：不需要關注所有詞，關注重要的就夠了。

這和人類閱讀很像：你掃讀一篇文章時，也不會逐字逐句看，而是抓住標題、關鍵詞、結論。