戳破「思考模型」的行銷幻覺:KV Cache 暴力美學與 Test-Time Compute 的真相
在深入研究 LLM 應用與 Agent 系統的過程中,我實在對業界那種「AI 馬屁精」式的玄學行銷感到反胃。現在廠商動不動就愛吹自家的新模型「會思考」、「有邏輯」,彷彿加了一個 “Pro” 或 “Thinking” 的後綴,神經網路就突然長出了人類的大腦。我們如果不採取懷疑與質問的態度,很容易就會被這些漂亮話牽著鼻子走。今天我們就冷酷地從底層運作機制與物理限制出發,拆解 Flash 模型與 Thinking 模型真正的差異,以及那些所謂的「思考過程」到底是什麼。 1. 根本不是「想久一點」:訓練目標與機率分佈的差異 很多人以為 Thinking 模型只是 Flash 模型跑得比較久,或者我們透過 Prompt 叫它「你想仔細一點喔」。這完全是個誤解。 Flash 模型的訓練目標是追求極致的推理速度與低延遲,它依賴強大的壓縮記憶和直覺式的 Pattern Matching。而標榜推理的 Thinking 模型,是在訓練階段引入了大量的RL,被「刻意訓練」成在給出最終答案前,必須先產生一長串的內部推理軌跡(Chain of Thought)。 無論是哪一種,它們本質上依然是在做 Next-Token Prediction。我們來看自迴歸生成最核心的機率公式:P(Y | X) = 根據過往生成的X個token 預測目前要接龍的下一個token Y的sampling長什麼樣子。 給定輸入 X,模型每一步都是在計算下一個 Token y_t 的最大條件機率。Thinking 模型並沒有跳脫這個框架,它只是被訓練成在生成最終答案的 y 之前,先利用這個公式接龍出一大堆中間步驟。 2. KV Cache 的暴力美學:破除「重新計算」的直觀迷思 既然是接龍出思考過程,這就帶出了第二個嚴重的迷思。很多人直觀地以為,Thinking 模型的運作方式是: 原始問題 -> 產出思考步驟 1。 接著把「原始問題+思考步驟 1」整包重新餵給 Transformer -> 產出思考步驟 2… 就這樣像俄羅斯娃娃一樣越疊越大。 如果真的是這樣運作,GPU 的算力早就原地爆炸了。真正的底層魔法,在於 KV Cache(Key-Value Cache)。 ...