2025 年 LLM 發展回顧: 推理模型、Benchmaxxing 與未來預測
看到 Sebastian Raschka 寫了一篇超長的 The State Of LLMs 2025 年度回顧文,把 2025 年 LLM 領域的重大發展都梳理了一遍。Sebastian 是 LLM 技術圈很有影響力的作者,他的 Build A Large Language Model (From Scratch) 那本書被翻譯成九種語言,非常受歡迎。這篇文章資訊量很大,以下摘我覺得最有價值的幾個觀點:
DeepSeek R1 定義了 2025 年
今年 LLM 發展的關鍵詞就是「推理模型」,而開端就是一月份 DeepSeek R1 的發佈。它帶來三個衝擊:
- 開放權重的推理模型: R1 是 open-weight,性能媲美當時最好的閉源模型
- 訓練成本的重新估算: 大家回頭看 DeepSeek V3 的論文,發現訓練 SOTA 模型的成本可能是 500 萬美元等級,而不是之前以為的 5000 萬到 5 億。R1 在 V3 基礎上的 RL 訓練更只花了約 29 萬美元
- RLVR + GRPO 成為新範式: 用「可驗證的獎勵」(Reinforcement Learning with Verifiable Rewards) 搭配 GRPO 演算法來訓練推理能力,不再需要昂貴的人工標註偏好資料
之後幾乎所有主要的 LLM 開發者都推出了自己的推理(thinking)模型版本。Sebastian 整理了每年 LLM 發展的主旋律:
- 2022: RLHF + PPO
- 2023: LoRA SFT
- 2024: Mid-Training
- 2025: RLVR + GRPO
不只靠 Scaling 了
GPT 4.5 是個很好的例子。據傳它比 GPT 4 大很多,但能力提升被認為是 “bad bang for the buck”。2025 年的進步更多來自:
- 更好的訓練流程: mid-training 和 post-training 的精進
- 推論時擴展(inference-time scaling): 花更多算力在生成答案的階段。DeepSeekMath-V2 就靠這個在數學競賽 benchmark 達到金牌水準
- 工具使用: 讓 LLM 學會用搜尋引擎、計算機等工具,大幅降低幻覺率。OpenAI 的 gpt-oss 就是以工具使用為核心設計的 open-weight 模型
Benchmaxxing 的問題
Sebastian 用 “benchmaxxing” 來形容今年的一個趨勢: 過度追求 benchmark 分數,甚至把跑分本身當成目標。最明顯的例子是 Llama 4,benchmark 分數亮眼,但實際使用體驗跟分數完全對不上。
他的觀點蠻務實的: benchmark 分數低於某個門檻,代表模型不行;但分數高不代表真的比另一個高分模型好。公開的 test set 早就不是真正的 test set 了。
開源生態的洗牌
幾個他覺得意外的事:
- Llama 失寵,Qwen 崛起: 按下載量和衍生模型數,Qwen 已經超越 Llama
- Mistral 直接用 DeepSeek V3 架構: Mistral 3 的底層就是 DeepSeek V3
- 更多玩家冒出來: Kimi、GLM、MiniMax、Yi 都在爭 open-weight SOTA
- MCP 成為標準: 比預期更快地統一了 agent 系統的工具和資料存取協議
LLM 是超能力,不是替代品
這段我覺得寫得最好。Sebastian 的核心觀點是: LLM 給人「超能力」,但不該完全取代人的思考。
他自己寫 LLM 訓練腳本時,核心邏輯還是自己寫、自己仔細看過,確保理解和正確性。但周邊的 boilerplate 程式碼就交給 LLM。他也用 LLM 處理非核心專長的事,像是備份 Substack 文章、清理 CSS 等。
更深層的觀點是: 如果人只負責監督而 LLM 做所有事,工作會開始感到空洞,長期可能加速 burnout。他用下棋做比喻——AI 早就超過人類棋手了,但人類的職業棋賽反而更豐富有趣,因為棋手用 AI 來探索新想法、挑戰直覺、分析錯誤。這才是對的用法。
一個有經驗的全端工程師用 LLM,做出來的東西還是會比一個隨便 prompt 的人好很多。厲害的是,現在隨便一個人也能做出東西了,但品質會到一個天花板——如果真的在乎,還是得深入學。
2026 預測
- RLVR 擴展到數學和程式以外的領域(化學、生物等)
- 更多 inference-time scaling 的進展
- 傳統 RAG 會逐漸退場,被更好的長上下文處理取代
- 進步更多來自推論端的改善,而非訓練端
- 消費級的 diffusion 語言模型可能出現(Gemini Diffusion)
以上,Sebastian 每年的回顧文都寫得非常紮實,這篇更是涵蓋了技術、生態、哲學層面。全文很長但值得讀完,推薦。
原文: The State Of LLMs 2025: Progress, Progress, and Predictions