在 LLM 的世界裡,我們常聽聞「多步推理(Multi-step Reasoning)」或「多代理架構(Multi-agent)」能顯著提升表現。對於激發創意、腦力激盪的場景,讓 Insights Agents 「多說幾句」確實能擴增語義邊界,激發出意想不到的火花。

但在對精確度要求極致的「金融量化驗證」場景,多說話反而可能讓表現變得很爛。

最近讀了 JPMorgan 發表在 EMNLP 2025 的論文 《A Multi-Agent Framework for Quantitative Finance》。這篇論文提出了一個包含 Data Summarizer、Finance Expert、Query Refiner 等「Insights Agents」的框架,試圖透過增加金融知識與數據預處理來強化 Base Agent 的表現。

雖然這項研究在學術上探索了複雜架構的可能性,但從實戰角度看,我必須說一句重話:這絕對不可能是 JPMorgan 內部實際在跑的 Production 系統。

原因很簡單:正確率(Pass@1)太低了。

1. 46% 的準確率:這只是個 Baseline

根據論文數據,即便疊加了這麼多 Insights Agents,整體的 Pass@1 準確率僅有 46%(對比單一 Agent 的 39.59%)。在處理「Hard」級別的金融問題時,準確率更是慘不忍睹 。對於量化金融這種「錯一個正負號就差之毫釐,謬以千里」的領域,這樣的表現遠未達標。

2. 「反思」的陷阱 (Reflection Trap)

論文提到了一個有趣的現象:在某些簡單(Easy)任務中,加入反思機制(Reflection)後的 Pass@5 或 Pass@10 指標竟然比沒加還低 。這再次證實了:如果 Agent 缺乏外部的物理驗證(如:硬性的符號檢驗或單元測試),它只是在「胡亂自信地修正」,結果往往越改越糟。

3. 缺乏標準答案的危險性

在真實業務場景中,如果我們手頭沒有標準答案(Ground Truth),這種「多代理、多話」的架構會產生極強的誤導性。它會吐出一堆看起來非常專業的金融術語、生成的代碼和詳細的反思日誌,讓用戶產生一種「它懂很多」的錯覺。但當你深究其計算邏輯,會發現它可能連欄位定義都搞錯了 。

核心反思: 金融驗證需要的是符號式的精確(Symbolic Precision)邏輯的嚴密檢驗,而不是更多浮誇的語義填充。我們不能依賴 LLM 的「語言天賦」來解決「邏輯運算」的問題。

這類論文適合作為 Baseline 讓我們了解 Agent 架構的局限性,但在追求 AGI 的路上,我們需要更硬核的驗證框架,而不是僅僅讓 Agent 變得更「健談」。


#LLM #AgenticAI #QuantitativeFinance #JPMorgan #EMNLP #LLMOps #AI驗證 #VerifiQuant