軟體工程佔了 AI Agent 近 50% 的 Agentic API 呼叫 — 從數據看 Agent 自主性的現實與未來
看到 Anthropic 發了一篇研究 Measuring AI agent autonomy in practice,分析了數百萬筆人類與 AI Agent 的互動數據,涵蓋 Claude Code 和公開 API 的使用狀況。這是目前少數用真實的大規模部署數據來研究 agent 行為的文章,而不是純靠 benchmark。發佈後在 Hacker News、Latent Space、LinkedIn 等社群都引發了不少討論。以下是幾個我覺得重要的發現:
Agent 的自主工作時間正在拉長
在 Claude Code 中,最長的 agent 工作時間(99.9th percentile)從 2025 年 10 月的不到 25 分鐘成長到 2026 年 1 月的超過 45 分鐘,三個月內將近翻倍。
有趣的是,這個成長是平滑的,沒有因為新模型發佈而出現跳躍。這暗示自主時間的增加不純粹是模型能力提升,還包含了用戶逐漸信任、嘗試更有野心的任務、以及產品本身的改進。
不過中位數其實變化不大,大約維持在 45 秒左右。會拉長的是那些 power user 的極端使用場景。
老手放更多手,但介入得更精準
Claude Code 用戶的行為變化很有意思:
- 新手只有約 20% 的 session 開啟 auto-approve,老手(750+ sessions)超過 40%
- 但同時,老手的 interrupt(中斷介入)頻率反而比新手高 — 從 5% 增加到 9%
這看似矛盾,其實是監督策略的轉變: 新手逐步核准每個動作所以不太需要中斷;老手放手讓 agent 跑,但靠經驗判斷什麼時候該出手拉回來。
這很像帶新人: 一開始盯著每一步,後來放手讓他做,但你的雷達反而更敏銳,知道什麼時候該出手。
公開 API 也看到類似的模式: 簡單任務有 87% 有人類介入,複雜任務反而只有 67%。因為步驟太多了,逐步核准根本不實際。
Agent 自己會停下來問問題
這點我覺得蠻重要的: 在最複雜的任務中,Claude Code 主動停下來問「釐清問題」(clarification) 的頻率,是人類主動中斷它的兩倍以上。
Claude 停下來的常見原因:
- 提出不同方案讓使用者選擇(35%)
- 需要診斷資訊或測試結果(21%)
- 請求釐清模糊的需求(13%)
- 需要 credentials 或權限(12%)
人類中斷 Claude 的常見原因:
- 提供技術背景或修正(32%)
- Claude 太慢或做過頭了(17%)
- 已經得到足夠的幫助,自己繼續做(7%)
這代表「agent 自己知道什麼時候該停」是一個重要的安全特性,不能只靠外部的權限管控,模型本身對自己的不確定性要有校準。
風險與自主性的分佈
研究用 1-10 分量化了每個 tool call 的「風險」和「自主性」。結果是大部分動作都落在低風險區,80% 有某種安全機制,73% 有人類在循環中。
但邊界上有些有趣的案例:
- 高風險高自主: 有人拿 agent 做 API key 後門植入(雖然很可能是 red team 測試)
- 高自主低風險: 自動系統健康檢查、email 監控告警、自動交易
- 高風險低自主: 醫療病歷調取、消防應急回應
上方右上角(高風險 + 高自主)目前還很稀疏,但隨著 agent 進入更多產業,這塊會越來越熱鬧。
軟體工程佔了近 50%,然後呢?
回到我覺得最有啟發性的 Figure 6:

軟體工程佔了公開 API 上近 50% 的 agentic API 呼叫。
第二名是 Back-office automation 才 9.1%,後面的 Marketing、Customer service、Finance、Healthcare 全部加起來都不到軟體工程的一半。
為什麼軟體工程一枝獨秀?
- 工具鏈天然適合 Agent: 讀寫檔案、跑測試、執行 shell 命令、呼叫 API — 本來就是可以程式化操作的,不需要碰到物理世界
- 風險可控、動作可逆: 改錯了
git revert就好,不像發錯 email 或下錯交易單 - 開發者就是第一批使用者: 會建構 agent 系統的人自然先拿來解決自己的問題
其他產業的機會
但換個角度看,剩下的 50% 基本上還在起步:
🔹 醫療健康: 保險理賠文件處理、病歷摘要、診斷前資訊蒐集,市場巨大但風險等級高,需要更嚴格的 human-in-the-loop
🔹 金融與交易: 已經有人拿 agent 做自動加密貨幣交易(autonomy 分數 7.7),但合規和責任歸屬問題會限制大規模部署
🔹 客服與銷售: 加起來佔比不到 5%,但明明是 AI 最直覺的場景。可能很多企業還停留在簡單的 RAG pipeline 而非 agentic 架構
🔹 Back-office 自動化: 9.1% 排第二,跟 RPA 市場重疊,但 agent 比傳統 RPA 靈活太多,可以處理非結構化的情境
Deployment Overhang: 模型能力 > 實際部署
研究用了一個很棒的概念:「deployment overhang」— 模型的能力已經到了,但實際部署的自主程度遠遠落後。
METR 的評估顯示 Claude Opus 4.5 能處理人類要花近 5 小時才能完成的任務,但 Claude Code 的 99.9th percentile 自主工作時間才 45 分鐘,中位數更只有 45 秒。
這個落差對做產品的人來說就是機會: 不是模型不行,是產品層面的信任機制、監控工具、權限控制還沒做好。誰能在垂直領域把這些做好,誰就能釋放 agent 的潛力。
網路上的討論與批評
這篇研究發佈後引起了不少迴響,值得一起看:
Hacker News 上的質疑: 有人指出,用前 0.1% 極端值的工作時間來衡量自主性,有刻意挑選數據的嫌疑。也有人認為純粹量測時間長度意義不大 — 不同硬體上跑同樣的任務,時間差異巨大,如果不控制 token 生成速度和輸出品質,這個數字本身說明不了什麼。這些批評有道理,但我認為 Anthropic 的重點不在絕對數字,而是趨勢方向。
Latent Space 的整理: swyx 在 AINews 中點出幾個關鍵數字 — 約 73% 的工具呼叫仍有人類參與監督,只有 0.8% 是不可逆的操作,而軟體工程佔了 API 端約 50% 的 API 呼叫。他用「部署落差」(deployment overhang)這個概念來框架化這個現象,呼應了研究本身的核心觀點。
The Atlantic 工程團隊的延伸思考: Matt White 在 The Autonomous AI Trifecta 一文中,把 agent 設計拆成三個維度:自主性(Autonomy)、能力範圍(Power)、安全保證(Assurance),並指出「你不可能同時把三個都開到最大」。他認為現代 agent 的評估方式,應該更像網站可靠性工程(SRE)那樣去量測服務品質,而不是像考試打分數 — 因為一旦 agent 的輸出變成真實系統的輸入,你就繼承了整個社會技術系統的複雜度:權限、合規、監控、事件回應、稽核等等。這個觀點我覺得非常精準。
LinkedIn 上的實作者觀點: Guru Chahal 總結得很到位:有效的監督不是逐一批准每個動作,而是在關鍵時刻有能力介入。
這些討論反映出一個共識正在形成:agent 的挑戰已經從「能不能做」轉移到「怎麼安全地放手讓它做」。
小結
這篇研究的價值在於用真實數據畫出了 AI Agent 產業的現狀。軟體工程走在最前面,其他產業機會巨大但需要解決信任和風險控制。對 AI Engineer 來說,接下來的挑戰不只是讓 agent 更聰明,而是設計出讓人類能有效監督 agent 的產品機制 — 尤其是在那些出錯代價高昂的領域。
正如 The Atlantic 工程團隊所說,這是 Autonomy、Power、Assurance 三者之間的取捨。誰能在垂直領域找到最佳平衡點,誰就能釋放 agent 真正的潛力。