從 Geoguessr 的「找膠帶」玄學，看深度學習的捷徑學習（Shortcut Learning）迷思

從 Geoguessr 的「找膠帶」玄學，看深度學習的捷徑學習（Shortcut Learning）迷思，我們如果太依賴某特徵會發生什麼事情？

1. 那些被丟在荒郊野外的日子：Vibe Guessing 的浪漫

自從結束交換學生的日子後，我意外迷上了 Geoguessr 這款遊戲。它的魅力在於不用下載任何 App，打開瀏覽器就能隨時隨地被「隨機空投」到世界某個角落。在玩這款遊戲時，我不僅能複習曾經走過的街景，還發現自己漸漸長出了一種超能力——「Vibe guessing（直覺流）」。

多虧了在歐洲遊走的經驗，我開始能用直覺去感受一個地方的「氣味」：不依賴那些主流的meta側面破解技巧，而是靠著建築的冷暖色調、路邊植物的生長姿態，甚至是一種難以言喻的「破敗感」或「秩序感」來定位。雖然這種黑盒子演算法偶爾會讓我大落漆（把南美洲猜成東歐之類的），但這種真正用雙眼去感受地理的過程，才是遊戲靈魂。

2. Meta 玩家的玄學：現實世界沒有長著涉水管的 Google 車

但與此同時，我對 Geoguessr 圈內極度推崇的「Meta 策略」抱持著高度懷疑。

什麼是 Meta？高階玩家被丟到荒郊野外時，他們第一時間不是看風景，而是低頭看 Google 街景車。他們透過記憶 Google 街景車在各國的收錄瑕疵來上分：

「車頂有黑膠帶？這絕對是迦納。」
「車頭右邊有一根涉水管？不用看了，肯亞。」
「天空有明顯的第三代鏡頭接縫光暈？定位塞內加爾。」

這確實很聰明，也是遊戲規則內的完美必勝法。他們繞過了真正需要龐大知識量的地理分析，直接破解了題庫。但荒謬的是，如果今天把這些 Meta 玩家丟到真實世界的肯亞，他們會迷路—— 因為現實中的肯亞街頭，並沒有那台長著涉水管的 Google 街景車跟著他們。

3. 演算法也是個功利的玩家：什麼是 Shortcut Learning？

把場景換到 AI 領域，深度學習模型其實就是個死命想上分的 Geoguessr 玩家。

不管是在電腦視覺還是對抗性攻擊與防禦（Adversarial Attack/Defense，我最近跟者羅紹元老師的腳步在研究）中，模型唯一的目標就是把 Loss 降到最低。它才不管什麼大局觀，只要能最快達到目的，它就會毫不猶豫地走捷徑。

這在機器學習裡被稱為 捷徑學習（Shortcut Learning） 。模型並沒有學會我們期望它學會的「真正特徵」，而是學到了「資料集裡的統計相關性（或是瑕疵）」。只要這個帶有強烈訊號的捷徑特徵一消失，模型的預測能力就會瞬間崩盤，毫無泛化性（Generalization）可言。

4. 殺傷力極強的隱形炸彈：相關性不等於因果關係

Shortcut Learning 在機器學習各個領域都是個災難，而且它比我們常說的Overfitting更難被發現、殺傷力更高。

Overfitting 是模型死背了訓練集，但在驗證集就會露餡。但 Shortcut Learning 可怕的地方在於，如果你的驗證集也包含了同樣的瑕疵，模型的表現會堪稱完美。 這就像經濟學和統計學裡常被拿出來鞭的鐵則：「相關性不代表因果」。模型只看到了高度相關，卻搞錯了因果。

套用回 Geoguessr 的比喻：如果哪天 Google 官方來個大更新，用 AI 把所有街景車的特徵、天線、膠帶全部 P 掉，那些高度依賴 Meta 的玩家積分絕對會迎來史詩級的雪崩。

5. 現實世界中的慘痛案例：當 AI 變成字體辨識器

這不是危言聳聽，學術界和工業界早就吃過很多次大虧。

最經典的例子，莫過於 2018 年發表在頂級醫學期刊 PLOS Medicine 的一項著名研究（Zech et al., 2018）。當時西奈山醫院（Mount Sinai）等機構的研究團隊訓練了一個深度學習模型，用來判斷胸腔 X 光片是否患有肺炎。在實驗室的訓練集和驗證集裡，這個模型的 ROC-AUC 表現高得嚇人，大家都以為看到了醫療 AI 的未來。

然而，當專家使用可解釋性工具（如 Grad-CAM）去拆解模型的決策邏輯時，大家全傻眼了。

這個 AI 根本沒有在看肺部的浸潤、積水或任何發炎情況。它在看的，竟然是 X 光片邊緣由特定醫院打上去的「字體標記」（例如畫面上出現的 “PORTABLE” 字樣）。

因為在原始資料集中，罹患肺炎的重症患者大多來自特定的幾家大型教學醫院，而這些醫院的 X 光機在片子上打的字體，跟其他健康對照組診所的字體完全不同。極度功利的 AI 敏銳地捕捉到了這個「車頂膠帶」，於是它不再學習如何看病，而是直接退化成一個超級精準的「字體辨識器」。當這個模型被移轉到其他沒使用該字體標記的醫院時，預測能力直接雪崩。

6. 逼迫回歸正道：NMPZ 與領域隨機化

我們該如何逼迫 AI（與玩家）走回正道？

在 Geoguessr 的社群裡，為了抵制這種投機行為，高階賽事開始推廣 NMPZ（No Move, Pan, or Zoom） 規則，甚至有開發者寫了腳本，強制用色塊把車體特徵全部遮蔽。這等於是強迫玩家放棄捷徑，乖乖回去研究植被、建築風格與語言學。

在深度學習中，我們也有同樣的手段。這對應到訓練技巧上的 資料擴增（Data Augmentation）、領域隨機化（Domain Randomization） 或是 對抗性訓練（Adversarial Training）。如果 AI 喜歡看字體，我們就把所有圖片的字體模糊掉、隨機替換；如果模型靠著雪地背景來辨識哈士奇，我們就在訓練時把哈士奇 P 到熱帶雨林或客廳裡。

我們必須在訓練過程中，刻意且殘酷地把那些「捷徑特徵」破壞掉，才能逼迫神經網路去學習真正具有因果關係、能夠應對真實世界變化的強健特徵（Robust Features）。畢竟，無論是玩遊戲還是做研究，捷徑或許能贏得一時的分數，但只有真正的理解，才能帶你走到最後。

我不希望大腦變成一個沒泛化能力的笨蛋 :(

1. 那些被丟在荒郊野外的日子：Vibe Guessing 的浪漫#

2. Meta 玩家的玄學：現實世界沒有長著涉水管的 Google 車#

3. 演算法也是個功利的玩家：什麼是 Shortcut Learning？#

4. 殺傷力極強的隱形炸彈：相關性不等於因果關係#

5. 現實世界中的慘痛案例：當 AI 變成字體辨識器#

6. 逼迫回歸正道：NMPZ 與領域隨機化#