看到 Sebastian Raschka 寫了一篇超長的 The State Of LLMs 2025 年度回顧文,把 2025 年 LLM 領域的重大發展都梳理了一遍。Sebastian 是 LLM 技術圈很有影響力的作者,他的 Build A Large Language Model (From Scratch) 那本書被翻譯成九種語言,非常受歡迎。這篇文章資訊量很大,以下摘我覺得最有價值的幾個觀點:

DeepSeek R1 定義了 2025 年

今年 LLM 發展的關鍵詞就是「推理模型」,而開端就是一月份 DeepSeek R1 的發佈。它帶來三個衝擊:

  1. 開放權重的推理模型: R1 是 open-weight,性能媲美當時最好的閉源模型
  2. 訓練成本的重新估算: 大家回頭看 DeepSeek V3 的論文,發現訓練 SOTA 模型的成本可能是 500 萬美元等級,而不是之前以為的 5000 萬到 5 億。R1 在 V3 基礎上的 RL 訓練更只花了約 29 萬美元
  3. RLVR + GRPO 成為新範式: 用「可驗證的獎勵」(Reinforcement Learning with Verifiable Rewards) 搭配 GRPO 演算法來訓練推理能力,不再需要昂貴的人工標註偏好資料

之後幾乎所有主要的 LLM 開發者都推出了自己的推理(thinking)模型版本。Sebastian 整理了每年 LLM 發展的主旋律:

  • 2022: RLHF + PPO
  • 2023: LoRA SFT
  • 2024: Mid-Training
  • 2025: RLVR + GRPO

不只靠 Scaling 了

GPT 4.5 是個很好的例子。據傳它比 GPT 4 大很多,但能力提升被認為是 “bad bang for the buck”。2025 年的進步更多來自:

  • 更好的訓練流程: mid-training 和 post-training 的精進
  • 推論時擴展(inference-time scaling): 花更多算力在生成答案的階段。DeepSeekMath-V2 就靠這個在數學競賽 benchmark 達到金牌水準
  • 工具使用: 讓 LLM 學會用搜尋引擎、計算機等工具,大幅降低幻覺率。OpenAI 的 gpt-oss 就是以工具使用為核心設計的 open-weight 模型

Benchmaxxing 的問題

Sebastian 用 “benchmaxxing” 來形容今年的一個趨勢: 過度追求 benchmark 分數,甚至把跑分本身當成目標。最明顯的例子是 Llama 4,benchmark 分數亮眼,但實際使用體驗跟分數完全對不上。

他的觀點蠻務實的: benchmark 分數低於某個門檻,代表模型不行;但分數高不代表真的比另一個高分模型好。公開的 test set 早就不是真正的 test set 了。

開源生態的洗牌

幾個他覺得意外的事:

  • Llama 失寵,Qwen 崛起: 按下載量和衍生模型數,Qwen 已經超越 Llama
  • Mistral 直接用 DeepSeek V3 架構: Mistral 3 的底層就是 DeepSeek V3
  • 更多玩家冒出來: Kimi、GLM、MiniMax、Yi 都在爭 open-weight SOTA
  • MCP 成為標準: 比預期更快地統一了 agent 系統的工具和資料存取協議

LLM 是超能力,不是替代品

這段我覺得寫得最好。Sebastian 的核心觀點是: LLM 給人「超能力」,但不該完全取代人的思考。

他自己寫 LLM 訓練腳本時,核心邏輯還是自己寫、自己仔細看過,確保理解和正確性。但周邊的 boilerplate 程式碼就交給 LLM。他也用 LLM 處理非核心專長的事,像是備份 Substack 文章、清理 CSS 等。

更深層的觀點是: 如果人只負責監督而 LLM 做所有事,工作會開始感到空洞,長期可能加速 burnout。他用下棋做比喻——AI 早就超過人類棋手了,但人類的職業棋賽反而更豐富有趣,因為棋手用 AI 來探索新想法、挑戰直覺、分析錯誤。這才是對的用法。

一個有經驗的全端工程師用 LLM,做出來的東西還是會比一個隨便 prompt 的人好很多。厲害的是,現在隨便一個人也能做出東西了,但品質會到一個天花板——如果真的在乎,還是得深入學。

2026 預測

  • RLVR 擴展到數學和程式以外的領域(化學、生物等)
  • 更多 inference-time scaling 的進展
  • 傳統 RAG 會逐漸退場,被更好的長上下文處理取代
  • 進步更多來自推論端的改善,而非訓練端
  • 消費級的 diffusion 語言模型可能出現(Gemini Diffusion)

以上,Sebastian 每年的回顧文都寫得非常紮實,這篇更是涵蓋了技術、生態、哲學層面。全文很長但值得讀完,推薦。

原文: The State Of LLMs 2025: Progress, Progress, and Predictions