打破 Seq2Seq 迷思,從資訊理論看大模型的極致壓縮與湧現
當時的我會覺得,Decoder 說穿了根本只是看著輸入做「文字接龍」,沒辦法預先知道整體要生成什麼。但現在回頭看,如果我們不跟著那些 AI 馬屁精瞎起鬨、講一些「因為 GPT 比較有靈性」的漂亮話,而是冷酷地從Information Theory與工程現實的底層來拆解,你會發現 Decoder-only 的勝出,根本是一場數學與物理限制下的必然。 1. 統一架構的暴力美學:交叉熵與自作聰明的代價 Seq2Seq 雖然邏輯清晰,但它把「理解」與「生成」拆成兩個模組,其實在數學目標函數上「自我閹割」了資訊壓縮的純粹性。 我們回到機率與資訊理論最純粹的定義——熵的鏈律(Chain Rule for Entropy): $$H(X_1, X_2, \dots, X_n) = \sum_{i=1}^{n} H(X_i | X_{i-1}, \dots, X_1)$$ 這條公式告訴我們,要量化一段人類語言的總體不確定性,最完美、最無損的拆解方式,就是去計算「在給定所有歷史資訊的情況下,下一個字的條件熵」並全部加總。 而 LLM 每天在跑的 Next-Token Prediction,其損失函數本質上就是最小化真實世界人類語言分佈 $p$ 與模型預測分佈 $q$ 之間的交叉熵(Cross-Entropy): $$H(p, q) = H(p) + D_{\text{KL}}(p \parallel q)$$ 這裡面的物理意義非常優雅:$H(p)$ 是「上帝的熵」,人類語言本身自帶的終極亂度;而 KL 散度 $D_{\text{KL}}(p \parallel q)$ 則是模型因為不夠聰明,導致我們在進行接龍時,平均每一步要多付出的資訊代價(雜訊)。優化模型的終極目標,就是要把這個代價逼近到 0。反觀 Seq2Seq,它偏要把這個統一的優化任務拆開,用雙向 Attention 去搞 Span Corruption(挖空填空),再用 Cross-Attention 去撈 Embedding。這打碎了能量化一切的條件熵鏈律,讓參數空間的優化目標變得極度不純粹。 2. 質問:我們真的希望 KL 散度歸零嗎? 好,這時候如果有人舉手質問:「照你這樣說,我們希望 $D_{\text{KL}}$ 越低越好,那終極目標不就是讓它等於 0?如果模型分佈跟人類真實資料採樣完全一模一樣,那它不就只是個死記硬背的隨機鸚鵡?你們天天掛在嘴邊的『湧現能力』到底從哪裡蹦出來的?」這個質問,就是解開 Decoder-only 勝出謎題的終極鑰匙。 ...