Alex Wang 首次長訪: 從 Scale AI 到重建 Meta AI,以及他眼中的超級智慧之路
去年夏天,Meta 以 143 億美元投資 Scale AI 取得 49% 股份,同時將共同創辦人兼 CEO Alex Wang 延攬為 Meta 首席 AI 長,負責掌管新成立的 Meta Superintelligence Labs (MSL)。Scale AI 則由 Jason Droege 接任 CEO,繼續獨立運營。交易完成後,Wang 就完全消失在公眾視野裡,十個月來沒有接受任何訪問、幾乎沒有公開發言。
直到 5 月 13 日這集 Core Memory Podcast,他終於跟主持人 Ashlee Vance 和 Kylie Robison 做了一場將近一小時的長訪。從 MSL 的組織架構、MuseSpark 的技術細節,一路聊到 agent 經濟、開源安全、AI 競爭格局、地緣政治、機器人、腦機介面、模型福祉。因為是加入 Meta 後的第一次公開深談,Wang 也終於回應了不少累積已久的八卦和質疑。
以下是重點整理:
1. 交易是怎麼談成的
Wang 說他跟 Zuckerberg 認識很多年了。還在經營 Scale 的時候就常跟 Zuck 請教,Scale 從 2016 年就在做 AI(最早是自動駕駛),兩人對 AI 一直有持續的交流。
大約一年前,兩人開始探索更緊密合作的可能性。Wang 觀察到 Zuck 在那個時間點對 AGI 的信念越來越堅定,不只認為 AI 會徹底改變 Meta,更把它看成一生一次的變革性技術,想要下非常大的賭注。同時 Llama 4 明顯沒有在正確的軌道上,Meta 需要改變。
經過一系列開放式的腦力激盪(Wang 說「這種事情通常都是這樣開始的」),他們找到一個對 Scale 好、對 Meta 也好的方案。Zuck 大約同期發表了「個人超級智慧」備忘錄,那就是兩人共同的北極星: 用 AI 賦能所有人,讓盡可能多的人都能用到這項技術。
2. 為什麼去 Meta
Vance 很直白地說: Scale 是你身份的一部分,你是那家公司的創辦人。要去一家八萬人的公司任職,這跳躍也太大了吧。
Wang 的核心判斷是兩件事:
第一,建模型的人掌握了越來越大的經濟和產品話語權。早期生態還有很多關於「生態系怎麼分層」的辯論,但隨著模型進步的速度越來越快,做模型的地方就是整個生態裡最激動人心的位置。
第二,算力正在重新定義科技公司的階級。有大量算力的公司跟沒有算力的公司,能做的事情根本不是同一個量級。他認為業界應該開始用「有沒有算力」來分類科技公司,而不是籠統地把所有科技公司看成同一種。有算力的公司能建的東西,沒算力的公司根本碰不了。
這兩個判斷放在一起,Meta 的吸引力就很清楚了: Zuckerberg 全力押注 AI,而且 Meta 有海量算力。Wang 還補充說 AI 的進步速度比他原本預期的快得多,這也是推動他做出這個決定的加速因素。
3. MSL 的組織架構
Wang 搬到了 Palo Alto(他笑說現在的生活就是在 University Ave 散步、買珍珠奶茶),MSL(Meta Superintelligence Labs)的結構比外界想的更清楚:
- TBD: 大型模型研究實驗室,那個「有點惡名昭彰的」核心團隊。頂尖研究員和基礎設施工程師都在這裡,技術上全部向 Wang 報告
- PAR(產品與應用研究): Nat Friedman 負責,管所有產品和模型的實際部署
- FAIR: 繼續做探索性研究,特別是科學方向,像是用 AI 理解大腦、計算化學、原子通用模型 UMA 等
- Meta Compute: Daniel Gross 負責,專注長期基礎設施規劃和 GPU/資料中心建設
首席科學家 Shengjia Zhao 則橫跨整個 MSL,負責科學議程的整體方向。
有個有趣的背景: Nat Friedman 是 Scale AI 最早期的天使投資人之一,甚至在 Wang 完成 YC 之前就投了。Daniel Gross 也是差不多同期認識的。這群人的交情比外界以為的深得多。
4. Meta AI 之前出了什麼問題
Wang 到 Meta 後發現的根本問題是: 團隊沒有真正把超級智慧當回事。他說很多大公司有很聰明的人在做 AI,但跟那些「從零開始就瘋狂相信超級智慧要來了」的新創公司相比,信念的強度完全不同。大公司的員工不是帶著這個瘋狂想法從頭開始的,心態自然不一樣。
他為 MSL 定下了四條原則:
- 認真對待超級智慧
- 技術聲音最大聲
- 科學嚴謹、回歸基本功
- 大膽下注
5. 追趕前沿的三條路徑
在這四條原則之下,Wang 拆出三條具體追趕(甚至超越)前沿的路徑:
🔹 更高的每人算力: 大實驗室算力很多,但分散到太多方向,反而拖慢每個研究員的進度。建一個更聚焦、更小的團隊,讓每個人分到更多算力,研究速度實際上會快很多。
🔹 人才密度: 他直說這是人類組織反覆學到的教訓: 一小群頂尖的人,永遠比一大群責任分散的團隊跑得快。團隊裡每個人都得是頂尖中的頂尖。
🔹 非常大膽的研究賭注: 有些研究方向風險極高,但一旦成功就能改變整個範式。除了打造有競爭力的前沿模型之外,他們把大量資源和算力押在這種高風險高回報的方向上。
6. 「外觀很傭兵,內在很新創」
Vance 很直白地問: 從外面看,你們做的事情非常像雇傭兵,砸大錢挖人、把原本的團隊換掉。讓他想起 xAI 的做法: Elon 就是搞比所有人都多的算力加一個核心團隊,結果追上了但似乎從來沒有達到逃逸速度,特別是在品牌認知上。這種東西真的能用買的嗎?
Wang 說這是他覺得外界跟內部日常反差最大的地方。媒體報導誇大了很多東西,而且因為招募速度極快(他一進 Meta 就知道「如果要建好模型,昨天就該有團隊了」),所以看起來像閃電戰。
但實際上 MSL 是一個全新從零建立的團隊,文化非常像新創。來參觀的其他實驗室的人常說,這裡的氛圍讓他們想起早期的 OpenAI 或早期的 Anthropic。某種意義上,MSL 才十個月大。
至於研究員是不是純粹為了錢來的? Wang 說大部分人留在原來的地方財務前景也非常好。真正吸引他們的是: 更高的個人算力、跟一群頂尖同事一起工作、以及大膽追求自己研究方向的自由。
招募過程本身也非常「個人化」的,要一個一個去跟人談,解釋在建什麼、為什麼在乎這個技術、想拿它做什麼。因為大部分人預設根本不知道該怎麼看 Meta 的 AI 計畫,所以得先讓他們相信這裡是認真的。
7. 招募湯和個人代價
關於 Zuckerberg 親手做湯招待研究員的傳聞(之前 OpenAI 的 Mark Chen 上同一個 podcast 也提過),Wang 笑說「不確定是不是我們做的湯,但我被告知確實是 Zuck 做的」。
更沉重的是個人代價。Wang 在 Scale 時代跟所有 AI 實驗室都有合作、認識所有人、跟所有人都維持關係。但到 Meta 之後,這些關係有些明顯裂了。
Vance 說他聯繫 Sam Altman 問起 Wang 上節目的事,Sam「沒什麼好話可說」。兩人曾經是室友。
Yann LeCun 離開 MSL 後公開對媒體說 Wang「年輕又沒經驗,會有更多人離開」。還有一直揮之不去的標籤: 太年輕、不是工程師(Wang 反駁: 這絕對不是事實,他曾在矽谷當過軟體工程師)、只是個業務員。Vance 還提到 Wang 是數學奧林匹克選手,在矽谷,這類競賽選手通常在程式和工程上都非常強。
Wang 倒是蠻淡定的。年齡這件事他在矽谷聽了一輩子,已經幾乎不會去想了。至於 Yann,他說幾週後在印度碰到,Yann 恭喜了 MuseSpark 的發布,兩人在 X 上也公開和解了。他的態度是: 隨著超級智慧越來越近,他真心希望業界的各種敵意能消退,大家能回到認真對待這項技術本身。但 Kylie 追問「你不覺得情況好像越來越糟嗎?」Wang 停了一下,笑說「也許先變糟再變好吧」。
8. 管理哲學: 不是來當老闆的
Vance 直接說: 你在 Scale 的時候,在某些圈子裡被認為比較像業務員,而且享受生活。我當時還在想,你管研究員管得動嗎?
Wang 引用了 Steve Jobs 的名言:「大部分公司雇人然後告訴他們做什麼,但我們雇人是讓他們來告訴我們該做什麼。」他說 TBD 和 MSL 的核心就是雇最厲害的研究員,然後給他們最好的環境去做畢生最好的研究,不是來指揮他們的。
9. MuseSpark: 開胃菜,不是主菜
Wang 對 MuseSpark 的定位非常明確: 這只是「開胃菜」,不是「主菜」。
過去九個月做的事情其實是全面翻新整個研究基礎設施: 重建預訓練堆疊、重建強化學習堆疊、重整科學和資料。MuseSpark 是這個全新堆疊上的第一個數據點,但他們對後面更大的模型興奮得多。
有趣的是,MuseSpark 的整體表現比預期好不少,還出現了一些沒有預料到的湧現能力,例如能生成網站和遊戲的視覺化程式碼能力。這不是刻意訓練出來的,而是多模態能力加上 agent 能力之後自然冒出來的。
但 Wang 也很坦白: MuseSpark 在 agentic coding 上還沒有競爭力,他們一開始就沒有期望它在所有面向上都是最頂尖的。這是下一批模型要解決的事。
問他什麼時候能看到真正的前沿模型? 「未來幾個月。」聽起來從全面打地基到進入快速 scaling 模式的轉折點,現在才剛到。
10. 乾淨堆疊帶來的 token 效率
Vance 說他上節目前把 MuseSpark 丟進各種 AI 系統讓它們分析,反覆出現的關鍵詞是「token 效率」。在 Artificial Analysis 基準測試上,MuseSpark 用明顯更少的 token 就能達到跟其他模型差不多的結果。問這是刻意為之還是意外?
Wang 說這是他們蠻興奮的發現,歸因於從零開始建「乾淨堆疊」的優勢,由最懂的專家用正確的方式蓋起來,沒有歷史包袱。他暗示其他模型需要更多 token,可能是因為堆疊的其他環節有根本性的低效率,然後靠讓模型多想一會兒來彌補。
小編覺得這個觀點蠻值得記住的。很多時候我們看到某個模型需要更長的思考鏈才能解題,可能不完全是因為問題本身難,而是底層有些技術債在拖後腿。如果隨著 scaling 這個效率優勢能維持,對 Meta 後續模型的成本結構會很有利。
11. 可預測的多軸 scaling
Wang 強調整個計畫的核心設計是圍繞「可預測的 scaling」,而且是在多個軸上同時看到:
- 預訓練 scaling
- 強化學習 scaling
- 推論時 scaling
- 多 agent scaling
特別是多 agent scaling。MuseSpark 的「深思模式」用 16 個 agent 協作,背後就是這個方向的早期成果。Wang 把整個進程描述為一個 scaling 階梯: MuseSpark 是第一個台階,下一個台階他們更興奮,再下一個更興奮。整個計畫就是為了能持續往上爬而設計的。
12. Ray-Ban Meta 眼鏡與裝置星座
MuseSpark 在視覺基準測試上表現特別好,Kylie 問這跟 Meta 的硬體策略有什麼關係。
Wang 提出了一個「裝置星座」的願景: Ray-Ban Meta 眼鏡已經賣出數百萬副,如果 AI 能真正融入這類設備,看到你看到的、聽到你聽到的、在你需要的時刻提供智慧,科技就能退到背景裡。
他描繪的圖像是: 你提到一件事,agent 就自動去做研究; 你不用主動問,它會主動給你有價值的洞見; 它捕捉你生活中的脈絡,知道什麼重要、什麼該注意,成為一個超級智慧的隨身夥伴,讓你生活的方方面面都變好。
13. 「我從來沒按過 WhatsApp 上那個 AI 按鈕」
這段是整場訪談最尷尬(也最真實)的時刻。Vance 坦白: 他是 Meta 生態的重度用戶,用 Ray-Ban Meta 拍影片和接電話、用 WhatsApp 經營整個公司、拒絕用 Slack。但他直到要採訪 Wang 才第一次注意到 WhatsApp 上有個 AI agent 按鈕。他平常做 AI 相關的工作都是跑去用 Claude 和 ChatGPT。
Wang 沒有尷尬迴避,而是把這當成策略來解釋: 他們刻意等到模型夠好了才推大規模整合。「我們知道必須先有好模型和好產品,才能去做更緊密的生態系整合。」現在模型到位了,接下來要做的就是把 AI 編織進 Meta 整個 app 家族,某種程度上就像 Google 過去幾年把 Gemini 整合進各產品的過程。
14. AI 競爭格局: 沒有人已經贏了
Vance 問了一個好問題: 消費者心目中 ChatGPT 就等於 AI,Claude 在 coding 和商業上超強,你們跟 Google 是在要求用戶「順便用一下嵌在服務裡的 AI」,這場競爭到底怎麼打?
Wang 的回答蠻有料的。他說如果一年前坐在這裡,大家會說 OpenAI 和 ChatGPT 已經贏了消費者市場,營收遙遙領先,其他人沒機會了。但一年後呢?
- Claude Code 異軍突起,當初有點可預見但不是那麼篤定,現在已經在營收上超越了 OpenAI
- Gemini 大量分發,實際上吃掉了不少消費者市場份額,包括從 ChatGPT 那裡搶走的
他從中得出一個洞見: 每當 AI 到達新的智慧和能力水準,就會解鎖全新的產品形態。 ChatGPT 是有史以來成長最快的產品和商業模式,直到 Claude Code 出現打破紀錄。下一波會更大,再下一波更大。我們離終局遠得很,還有很多尚未被發明的產品形態,每一個都可能比現有的更大。
小編覺得 Wang 把 ChatGPT → Claude Code 的接力描述成 AI 的內在特質這點蠻有意思的: 不是某家公司特別厲害,而是 AI 能力本身在跳級,每一跳都會催生新的殺手應用。
15. AI 消費者觀感: 還欠一個「Claude Code 時刻」
Kylie 提到一個很真實的觀察: 她身邊的年輕人在 Instagram 上瘋狂轉發「多討厭 AI」的內容,消費者對 AI 的觀感已經觸底了。
Wang 沒有迴避,直接承認消費者對 AI 的感受「非常低,說得客氣點」。他的解釋是: 到目前為止,AI 還沒有真正向大眾證明它是一個「個人賦能的工具」。開發者因為 AI 能做到以前做不到的事情,週末就能完成一整個專案,所以觀感很正面。但對普通人來說,AI 讓生活好了一點,但還沒有到壓倒性的程度。
換句話說,AI 還欠每個普通人一個等同於開發者用 Claude Code 時的那種感覺,一個讓人真正覺得「我的能力被大幅放大了」的產品體驗。同樣的事也還沒發生在中小企業主身上。
Vance 補了一刀: 你去美國任何小鎮的餐廳看他們的網站,大概停在 2002 年。你現在要給這些人多 agent 架構的產品? 聽起來是個巨大的跳躍。而且很多人對 Meta 本身就不太信任。
Wang 承認 Meta 的信任門檻確實更高。他的答案很務實: 最好的回應就是建出真正好的產品。Meta 有數十億用戶和數億中小企業在平台上,很多用 WhatsApp 做生意、有 Facebook 或 Instagram 粉絲頁、用 Meta 的廣告系統。如果能為這些企業建出真正改變他們經營方式的 agent,這是只有 Meta 才有的機會。
16. Agent 經濟 vs 天才國度
這段是 Wang 描述得最具野心的願景。Dario Amodei 常用的比喻是「資料中心裡的天才國度」,一群超強的 AI 在資料中心裡做研究和解決問題。Wang 則說 Meta 要建的是「資料中心裡的 agent 經濟」。
差別在哪? 如果你能為消費者和企業兩邊都建出 agent,然後讓這些 agent 之間能互相協作和交易,就能從根本上改變經濟中的供需運作方式。前者偏研究和知識密集,後者偏雙邊市場和商業生態。
但他也強調,這必須跟取得社會認同同步進行: 要讓人們看到 Meta 確實在乎產品的部署方式,而且真的在讓人們的生活變好。
17. 開源: 還是會做,但安全優先
MuseSpark 沒有開源,這在社群引起不少議論。Vance 問得很認真。畢竟 Meta 就坐在 Sun Microsystems 的舊大樓裡(Sun 曾是開源軟體的旗手),而且 Meta 之前做的 Open Compute Project 也很受重視。開源到底還算不算你們的承諾?
Wang 解釋: 模型比 Llama 時代更強大了,他們在 MSL 建立了一套先進 AI scaling 框架。MuseSpark 在內部安全測試中觸發了一些安全護欄,特別是在生化、網路攻擊能力和失控風險方面。這些都詳細記錄在他們發表的 MuseSpark 安全準備報告裡。
所以 MuseSpark 目前的形式不適合開源。但他們正在開發適合開源的版本,訪談當天 Wang 才剛開過一個會審視這方面的進度。
他的立場很明確: 會繼續開源模型,但最強大的模型必須先考量是否安全到足以開源。
18. 「八卦跟報導的界線,薄得驚人」
被問到媒體報導 Meta 內部的分裂(Wang/Zuck 陣營重研究 vs. Boz/Chris Cox 陣營重產品),Wang 直接開砲:「這份工作教會我一件事: 大媒體的報導門檻,八卦和新聞之間的界線,薄得驚人。」
他說內部沒什麼重大路線對立。大家都知道需要最好的模型來支撐核心業務,也都知道要把模型整合進產品和服務,讓消費者和企業用到最好的版本。Meta 從他來之前就在做商業 agent 了,那些也需要最好的模型。跟任何公司一樣會深入辯論,但沒有什麼嚴重的內鬥。
19. Manus 交易、紐約時報全版廣告與國安
Vance 把兩件事串在一起問: Wang 在 Scale 時代曾在紐約時報刊登全版廣告,警告 AI 在戰爭和國家安全上的重要性,積極在華盛頓遊說美國政府認真看待中國的 AI 威脅。然後轉到 Meta 就跟中國新創 Manus 做交易,這不是自相矛盾嗎?
Wang 先回應了國安廣告的背景: 那個時間點他覺得非常關鍵,必須讓美國政府理解 AI 會帶來國安上的重大變革。他說後來發生的事情(包括 Mythos 等事件)證明那個判斷是正確的。中國共產黨和解放軍一直把 AI 當作有深遠國安意涵的技術來對待,美國政府現在也終於認真對待了。
至於 Manus,他做了一個很重要的區分: 要把人和國家分開。他的父母是中國人,有很多非常優秀的華人工程師和研究員,有些去了新加坡、有些來了美國。跟這些人才合作,不等於認同中共的行動。他批評矽谷(特別是 X 上)對中國議題太缺乏層次,什麼跟中國沾邊的都混在一起談。
Vance 追問: 你沒辦法評論是不是代表事情還在進行中? Wang 只說「我真的沒辦法評論」,暗示交易並非已經結束。
20. 怎麼看 Anthropic 的末日論立場
Vance 直接問: 你覺得 Anthropic 是不是太末日論了?
Wang 的回答蠻有層次的。他說聽 AI 業界的人談 AI 時,要區分「他們確切說的話」和「他們想傳達的核心訊息」。Anthropic 的核心訊息他覺得是合理的: 模型已經非常強大了,而且只會更強大。Wang 認為安全是基本門檻,建超級智慧的同時不認真思考安全風險,是不可能的事。MSL 為 MuseSpark 發表了比 Meta 歷史上都更詳細的安全準備報告,就是這個態度的體現。
21. 機器人: 從數位到物理超級智慧
Meta 收購了機器人 AI 新創 ARI (Assured Robot Intelligence),做的不是硬體而是各種硬體平台的 AI 軟體。
Wang 的邏輯鏈很清楚: 如果你真的相信超級智慧的時間線很近,那在數位超級智慧之後不久,「物理超級智慧」就會變得極其關鍵。他認為機器人智慧跟數位超級智慧一樣會受益於 scaling,而 Meta 正在建的算力基礎設施如果不拿來做世界模型和物理智慧,幾乎是一種浪費。應用方向包括加速科學發現、改善製造、以及更貼近日常的,讓機器人讓所有人的生活變得更輕鬆。
Kylie 問了一個很辣的問題: 大家會不會想到 Metaverse 那個「沒有腿」的尷尬事故? Meta 做機器人的公信力夠嗎? Wang 的回答是: 如果因為過去的事情就不敢起床做事了,那就什麼都不用做了。他相信只要產品做得好、部署得謹慎,人們會接受的。
22. 模型福祉
這是訪談最出人意料的段落。Wang 主動提起,還先打預防針:「有些人可能會罵我提這個。」
他的論點是: 人類關心我們如何對待植物、動物、其他人,那在 AI 模型已經成為我們深層工作夥伴的今天,思考「我們是否應該善待模型」、「模型是否具有道德份量」是合理的。他提到已經有辦法測量模型的主觀體驗,而且 Meta 已經聘請了哲學家來研究這個方向。
他認為這是一個嚴重被低估的議題: 考慮到科技圈的人現在每天多深度地跟 AI 模型協作,它們真的已經是我們的工作夥伴了,但幾乎沒有人在認真討論這件事。
23. 關鍵路徑: 超級智慧、機器人、腦機介面
訪談尾聲,Vance 問 Wang 哲學上跟其他前沿實驗室的領導人有什麼不同。他指出自己大概知道 Dario 的立場、Elon 的方向、Sam 的想法、Demis Hassabis 的科學路線,但 Wang 一直是個謎。
Wang 先給出他最核心的信念:「如何在地球上建造天堂? 超級智慧是通往那裡的關鍵里程碑。」
然後列出他認為人類前進的三條關鍵路徑技術: 超級智慧、機器人、腦機介面 (BCI)。而放眼未來會無限擴展的東西,是能源、算力和機器人。
Vance 說 Elon 在這三個方向上的投入比誰都大。Wang 的回應是: 他跟 Elon 最大的差異在於,他認為研究的順序非常重要。建超級智慧本質上是一個研究活動,在知識的戰爭迷霧裡靠做實驗來一步步探索和推進,不是砸最多算力就能直接到達終點的。先後順序很重要。
整場訪談聽下來,Wang 不像 Sam Altman 那樣喜歡對外描繪 AI 的宏大願景,不像 Dario Amodei 那樣花大量時間公開辯論 AI 安全的哲學問題,也不像 Elon Musk 那樣靠速度和規模硬碾過去。他比較像一個工程導向的管理者: 先搞清楚問題在哪、把基礎設施建對、找對的人放在對的位置,然後讓他們去做研究。不急著對外宣傳,等東西做出來再說。
但這場訪談也讓人看到他務實之外的另一面: 他主動聊模型福祉、聊腦機介面、聊「如何在地球上建造天堂」,想的比多數人預期的更遠。至於 MSL 最後能交出什麼成績? 他自己說得很明確: 用作品說話。那就等著看吧。