NLP | datafox.tw

「如果要通往圖靈機的路上，Seq2Seq 本身比 Decoder 還要合理。」這是我在 2022 年的筆記裡寫下的一句話。當時我試玩了早期的 GPT-2，心裡總覺得：這到底是個什麼東西？相比之下，基於 Seq2Seq 概念的 BART 或是 T5 看起來合理太多了。沒想到幾年後的現在，在這場 AI 軍備競賽中，竟然是 Decoder-only 架構拿下了 MVP。當時的我會覺得，Decoder 說穿了根本只是看著輸入做「文字接龍」。它沒辦法預先知道自己整體要生成什麼，只能不斷在 Sample Space (樣本空間) 中選擇「現在這個情況下，下一個字機率最大的是誰」。相較之下，Seq2Seq 才是完整使用 Transformer 架構的「好學生」： Encoder 負責看懂整個句子架構，並生成富含語意細節的 Embedding。 Decoder 應用 Encoder 給的全局上下文 (Context) 來輸出序列。這樣的分工聽起來超合理，對吧？但為什麼現在的發展卻完全偏向了 Decoder-only？以下是我後來自己的反思，以及結合近期與 AI 討論後整理出的幾個關鍵原因。 1. 統一架構的暴力美學：Scaling Law 與目標函數 Seq2Seq 雖然邏輯清晰，但它把「理解」與「生成」拆成了兩個模組。Encoder 負責理解並產生針對細部觀念的 Embedding。這其實帶來了一個隱形的代價：訓練目標的不一致。 Seq2Seq 常常使用 Span Corruption（例如把一段話挖空，讓 AI 填空，類似 BERT/T5 的作法）來預訓練；而 GPT 則是貫徹到底的 Next Token Prediction (預測下一個詞)。後來的事實證明，當模型參數規模放大到百億、千億等級時，遵守 Scaling Law (規模法則) 的 Next Token Prediction 是最能榨取資料價值的「目標函數」。當我們要壓低 Loss Function，讓 Decoder-only 的模型表現越來越好時，因為要預測下一個字足夠準確，模型被迫要在內部「模擬」出整個世界的邏輯、常識甚至物理規律。 ...