打破 Seq2Seq 迷思，從資訊理論看大模型的極致壓縮與湧現

當時的我會覺得，Decoder 說穿了根本只是看著輸入做「文字接龍」，沒辦法預先知道整體要生成什麼。但現在回頭看，如果我們不跟著那些 AI 馬屁精瞎起鬨、講一些「因為 GPT 比較有靈性」的漂亮話，而是冷酷地從Information Theory與工程現實的底層來拆解，你會發現 Decoder-only 的勝出，根本是一場數學與物理限制下的必然。

1. 統一架構的暴力美學：交叉熵與自作聰明的代價

Seq2Seq 雖然邏輯清晰，但它把「理解」與「生成」拆成兩個模組，其實在數學目標函數上「自我閹割」了資訊壓縮的純粹性。

我們回到機率與資訊理論最純粹的定義——熵的鏈律（Chain Rule for Entropy）：

$$H(X_1, X_2, \dots, X_n) = \sum_{i=1}^{n} H(X_i | X_{i-1}, \dots, X_1)$$

這條公式告訴我們，要量化一段人類語言的總體不確定性，最完美、最無損的拆解方式，就是去計算「在給定所有歷史資訊的情況下，下一個字的條件熵」並全部加總。

而 LLM 每天在跑的 Next-Token Prediction，其損失函數本質上就是最小化真實世界人類語言分佈 $p$ 與模型預測分佈 $q$ 之間的交叉熵（Cross-Entropy）：

$$H(p, q) = H(p) + D_{\text{KL}}(p \parallel q)$$

這裡面的物理意義非常優雅：$H(p)$ 是「上帝的熵」，人類語言本身自帶的終極亂度；而 KL 散度 $D_{\text{KL}}(p \parallel q)$ 則是模型因為不夠聰明，導致我們在進行接龍時，平均每一步要多付出的資訊代價（雜訊）。優化模型的終極目標，就是要把這個代價逼近到 0。反觀 Seq2Seq，它偏要把這個統一的優化任務拆開，用雙向 Attention 去搞 Span Corruption（挖空填空），再用 Cross-Attention 去撈 Embedding。這打碎了能量化一切的條件熵鏈律，讓參數空間的優化目標變得極度不純粹。

2. 質問：我們真的希望 KL 散度歸零嗎？

好，這時候如果有人舉手質問：「照你這樣說，我們希望 $D_{\text{KL}}$ 越低越好，那終極目標不就是讓它等於 0？如果模型分佈跟人類真實資料採樣完全一模一樣，那它不就只是個死記硬背的隨機鸚鵡？你們天天掛在嘴邊的『湧現能力』到底從哪裡蹦出來的？」這個質問，就是解開 Decoder-only 勝出謎題的終極鑰匙。

真相是：正因為物理現實的限制，湧現其實是「有損壓縮」帶來的副產物。

人類語言背後的知識空間、物理定律、因果邏輯（巨大的 $H(p)$）是近乎無限的。但是，模型的參數（不論是 7B 還是千億參數）在硬體世界裡是極度有限的。模型在統計學上絕對不可能讓 KL 散度真正歸零。

在那種容量有限、卻又被強迫要把交叉熵壓到最低的絕境下，模型發現死記硬背根本塞不下。它唯一能考高分的生路，就是被迫在內部神經元中，抽象化出這個世界的底層運作規律、邏輯語法與因果世界模型（World Model）。

3. 為什麼「流暢接龍」等同於「理解世界」？

很多人覺得 Decoder-only 只是在玩膚淺的文字機率接龍，怎麼可能懂物理或程式？

我們來玩個思想實驗。請看這句話：

「一個100公斤和50公斤的人去溜滑題，理論上所需時間\underline{\hspace{1cm}}。」

模型為了要在後面精準接出「一樣」，進而壓低它的條件熵，光靠統計詞頻絕對會翻車。它在幾萬億個 Token 的極致壓縮淬煉中，被迫隱式地模擬出了「重力」、「摩擦力」等。

這就是 Decoder-only 透過純粹的對數概似最大化（MLE）所達到的超凡境界。它看似只是在追求吐字的流暢度，但因為人類文字背後的因果邏輯太嚴密，它想要做到極致的通順，就必須被迫成為這個世界的模擬器。或許「理解」從來都不是目的，而是為了「接得準」而產生的附屬品。

結語：我們距離 AGI 還有多遠？

在大家爭論 AGI 到底是怎麼達成的時候，觀察目前 GPT 的運作模式：先透過 Prefix LM 在內部運算（思考）要 Output 什麼，然後開始輸出的時候就進入類似「文字接龍」的自回歸狀態，仔細想想這其實滿符合人類行為的。畢竟，當我們在腦中想好要講出來的東西後，接下來的說話過程很多時候已經是一條決定性鏈條（Deterministic Chain）。儘管人類在說話的過程中，還會不斷地「先想一想、再講一講、再修正一下」，這點與目前單純一次性生成的 LLM 仍有本質上的不同。

但不可否認的是，Decoder-only 架構憑藉著極致的擴展性、純粹的數學目標與運算效率，確實帶我們走到了過去難以想像的 AI 新高度。

1. 統一架構的暴力美學：交叉熵與自作聰明的代價#

2. 質問：我們真的希望 KL 散度歸零嗎？#

3. 為什麼「流暢接龍」等同於「理解世界」？#

結語：我們距離 AGI 還有多遠？#

1. 統一架構的暴力美學：交叉熵與自作聰明的代價

2. 質問：我們真的希望 KL 散度歸零嗎？

3. 為什麼「流暢接龍」等同於「理解世界」？

結語：我們距離 AGI 還有多遠？