熱門資訊> 正文
2026-05-09 07:06
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:刷榜單已無意義。2026年AI基建正從「智能大腦」轉向「神經系統」:讓智能走出實驗室,在現實中感知與進化,纔是硬核玩家的下一條護城河。文章來自編譯。
第一代AI基礎設施公司開發出了智能的「大腦」。而下一代基礎設施將把這些智能引擎釋放到現實世界中。
第一代AI是為一個「模型即產品」的世界而構建的,那時候,進步意味着更大的權重、更多的數據和卓越的基準測試結果。AI基礎設施反映了這一現實,推動了基礎模型、算力規模、訓練技術和數據運營等領域巨頭的崛起。這正是我們《2024年AI基礎設施路線圖》的重點,在那場AI基礎設施革命拉開序幕時,這一藍圖引導我們投資了 Anthropic、Fal AI、Supermaven(后被 Cursor 收購)以及 VAPI 等公司。
不過,現在的格局已經發生了變化。頂級實驗室不再僅僅追求基準測試的提升,而是轉向設計能夠與現實世界交互的AI;企業也正從概念驗證(POC)階段邁向真正的生產環境。那些讓我們走到今天的、以規模和效率為核心進行優化的基礎設施,已無法帶我們進入下一個階段。現在需要的是能夠將AI錨定在業務上下文、現實經驗和持續學習中的基礎設施。
新一波AI基礎設施工具正在蓄勢待發,旨在讓AI在現實世界中運行。我們確定了定義這一新浪潮的五個前沿領域,每一個領域都在解決模型規模化之外必須攻克的結構性限制。
隨着AI部署從單一模型轉向複合系統,旨在「駕馭」模型——即釋放其全部潛力——的基礎設施變得比以往任何時候都更加重要。
以記憶和上下文管理為例。大多數企業AI系統都患有「組織性健忘症」。雖然基礎的檢索增強生成(RAG)解決了模型與數據源之間的連接問題,但複合AI系統現在需要更復雜的記憶基礎設施。企業擁有海量的歷史數據和組織知識——從內部文檔到 CRM 記錄——AI系統必須能夠訪問這些數據,以避免產生幻覺,並確保其輸出與公司特有的現實情況相符。
可靠的AI部署不僅取決於模型的原動力,還取決於對知識檢索、跨會話上下文管理和規劃等組件的編排。隨着模型日趨商品化,差異化競爭正在轉向記憶和上下文層。開發者曾經需要從零構建的東西——如自定義向量數據庫和檢索系統——現在正在演變成一個獨立的基礎設施類別。初創公司和科技巨頭現在都在提供即插即用的語義層,以跨會話維護對話上下文、用户偏好和長期記憶。
新型的評估和可觀測性構成了另一個關鍵的基礎設施挑戰——這在以往的軟件開發範式中並不存在。以將對話式AI智能體推向生產環境的團隊為例,傳統的監控手段追蹤的是完成率、延迟、錯誤代碼以及點贊/點踩反饋。但對話式AI的失敗方式截然不同。當聊天機器人給出一個言之鑿鑿的錯誤答案,或者逐漸偏離用户的實際問題,再或者在誤解請求的同時生成了一些看似合理的回覆時,用户往往不會做出反應。沒有投訴,沒有點踩,也沒有錯誤信號。在儀表盤上,對話看起來毫無異常,而AI其實已經悄無聲息地失敗了。
據估計,78%的AI失敗是隱形的——AI出了錯,但沒人發現。用户沒發現,傳統監控沒發現,甚至情感分析也沒發現。這些失敗通常呈現為以下幾種反覆出現的模式:
信心陷阱——AI自信地胡說八道,而用户信以為真
漂移——AI逐漸開始回答一個與初衷無關的問題
無聲錯位——AI理解有誤,但生成的內容足夠像模像樣,導致用户沒有提出質疑
即便用了更強大的模型,這些模式在93%的情況下依然存在,因為它們源於交互動態——即模型如何展示輸出以及用户如何傳達意圖——而非能力上的短板。
應對這一問題的新基礎設施正在涌現。像 Bigspin.ai 這樣的平臺不僅提供部署前的測試,還能根據黃金數據集和用户反饋對生產環境中的模型輸出進行實時監控。我們也正在超越傳統的分析方法,轉向語義指標;Braintrust 和 Judgment Labs 等新平臺,以及「LLM-as-a-judge」(以大模型作為評審)等技術,正逐漸成為高質量評估和指標定義的標準。
這些例子展示了對AI駕馭型基礎設施不斷演進的需求。關於環境、運行時、編排、協議和框架的更多內容,可參閱我們的《軟件3.0路線圖》。
當下的AI模型面臨一個根本性的約束:凍結的權重阻止了模型在部署后進行真正的學習。雖然像壓縮(compaction)這樣的上下文管理策略非常強大,且我們看到許多頂級實驗室在長期運行的智能體里面也用到了,但上下文學習(in-context learning)只能通過機械記憶實現表面層次的自適應,而無法習得新技能。此外,隨着上下文的增長,成本也會變得高昂到難以承受,因為 KV 緩存會隨着上下文的增加而線性增長。從技術和經濟的角度來看,構建一個能記住所有內容並在多年使用中不斷進步的AI系統是行不通的。
而這正是持續學習(continual learning)大顯身手的地方。它能讓AI隨着時間的推移跨任務積累知識和技能,在獲取新能力的同時保留原有能力。與一次性訓練后靜態部署的傳統模型不同,持續學習系統在生產環境中不斷進化——在每一次交互中變得更聰明,同時避免「災難性遺忘」。研究人員和從業者正在通過預訓練和后訓練階段的創新來探索這一路徑。
架構層面的方法從根本上重新思考了模型的學習方式:
Learning Machine 正在構建像人類一樣在推理過程中不斷學習的模型。通過全新的架構和訓練範式,模型將掌握「如何學習」這一元技能,從而在部署后適應不同的用户和企業。
Core Automation 正在從根本上反思 Transformer 架構,旨在構建能夠通過新型注意力機制自然產生記憶的系統。
斯坦福與英偉達合作的 TTT-E2E 運用了滑動窗口 Transformer,在測試時通過對上下文進行下文預測來持續學習,並將其壓縮進權重里面。在訓練期間,模型學習如何在推理時更好地更新自身權重,實現了端到端的方法。
近期可投入生產的解決方案也已出現:
「Cartridges」方法將長上下文存儲在通過離線訓練生成的小型 KV 緩存內,並在推理過程中跨不同用户請求來重複使用。
Sublinear Systems 和基礎模型實驗室正競相通過新技術解決上下文限制問題。
我們看到的持續學習方法非常廣泛,既有挑戰高風險、可能徹底重定義該領域的架構性「登月計劃」,也有能逐步改進現有 Transformer 的生產就緒型技術。我們非常渴望與這個譜系的各類創始人交流。
持續學習的生產部署需要全新的治理原語,而這些在標準的機器學習工作流里面尚不存在。回滾機制需要在更新導致性能退化時恢復到穩定的檢查點,這需要對權重、數據和超參數進行完整的血緣追蹤。隔離技術則允許在不影響核心能力的情況下進行安全實驗。此外,創建除「大海撈針」測試之外的基準測試,以衡量持續學習系統相對於上下文學習的性能,也將至關重要。
由於數據質量從根本上決定了AI的能力,那句古老的機器學習格言「垃圾進,垃圾出」現在比以往任何時候都更有意義。Mercor、Turing 和 micro1 等數據平臺在AI革命的第一波浪潮中發揮了重要作用,它們動員人類專家來創建高質量的數據集。但我們相信,隨着AI系統從模式識別轉向自主決策,一個關鍵的侷限性已經顯現:人類生成的標註數據已不足以支撐生產級的AI。它無法教會AI系統如何應對具有延迟后果和複合決策的複雜多步任務。
這正是強化學習(RL)變得不可或缺的原因,因為AI必須通過交互而非靜態數據集進行學習,從而獲得「經驗」。利用強化學習技術棧現已成為AI基礎設施工具的基石,其目的是在無需承擔現實世界試錯成本和風險的情況下,教會智能體複雜的行為。這一新興技術棧中的平臺包括:
環境構建與經驗策劃:Bespoke Labs, Deeptune, Fleet, Habitat, Matrices, Mechanize, OpenReward, Phinity, Preference Model, Proximal, SepalAI, Steadyworks, Veris, VMax
強化學習即服務(RL-as-a-service):Applied Compute, cgft, Metis, osmosis, Trajectory
平臺基礎設施:AgileRL, Hud, Isidor, OpenPipe, Prime Intellect, Tinker
在我們2024版的路線圖中,模型部署和推理優化已成為關鍵的基礎設施層,Fal、Together、Baseten 和 Fireworks 等廠商率先推出了高效的服務方案。當時,資本密集型的模型訓練佔據了AI領域絕大部分的算力資源。而今天,我們正見證着算力重心的根本性偏移。隨着AI智能體和應用從原型轉向大規模生產,推理工作負載在算力需求和經濟重要性上已能與訓練抗衡,甚至在許多情況下已經超越了后者。正如黃仁勛在 GTC 2026 主旨演講中所説那樣:「AI終於能夠從事生產性工作了,因此,推理的拐點已經到來。」
這一拐點反映出市場正趨於成熟。在這個市場里,持續運行AI系統的成本和性能與構建它們的初始投資同樣重要。
新一代基礎設施初創公司正通過對推理棧的專業化優化來應對這一生產需求。像 TensorMesh 這樣的公司正在利用 LMCache 消除冗余的重複計算;RadixArk 正在推進基於 SGLang 的多輪對話路由和調度;Inferact 則在為高吞吐服務突破 vLLM 的性能極限。Gimlet Labs 甚至像英偉達這樣的超大規模廠商,都在研發專為複雜智能體系統設計的異構推理創新。這些創新將前沿的系統研究轉化為可衡量的生產收益:更快的響應速度和更低的成本。
我們還看到了針對新型部署方式的推理創新,邊緣計算和端側部署就是其中的典型例子。隨着AI滲透到從機器人到消費品的各個經濟領域,AI部署需要出現在用户所在的地方,而這並不總是基於雲端的。我們看到 WebAI、FemtoAI、PolarGrid、Aizip Mirai 和 OpenInfer 等公司正在消費級設備的端側AI部署領域挑戰極限。Perceptron 等模型廠商的端側創新對於物理AI也至關重要,正如我們在關於智能機器人的思考中所述,我們期待在該領域看到更多成果。
邊緣AI對於國防等行業同樣至關重要,在這些行業中,通信往往會被干擾或阻斷;TurbineOne、Dominion Dynamics、Picogrid 和 Breaker 等公司正帶頭提供基礎設施工具,讓士兵即使在最艱苦的環境中也能利用AI的力量。
模型層是AI基礎設施棧中最具活力且競爭最激烈的層級之一。雖然大語言模型(LLM)已經攻克了語言智能,但一類全新的模型——世界模型——已經出現,其實目的是為物理世界提供智能。
隨着AI從屏幕走向物理現實,新的挑戰也隨之而來:如果AI「大腦」沒有「身體」,它如何培養對物理規律和世界的直覺?世界模型提供了一個解決方案。核心在於,這些AI系統是利用現實世界數據(視頻、傳感器、GPS等)訓練出來的,它們學習在給定的當前情況和動作下預測世界將如何演變。它們不再僅僅是描述現實,而是在模擬現實。
在這些較新的研究中,出現了三種主要的架構範式。在實踐中,各公司也開始探索結合各方優勢的混合模式:
來自 Reka 和 Decart 等公司的基於視頻的世界模型將問題定義為視頻生成,直接在像素空間預測未來的幀。由於它們是逐步生成輸出的,因此可以實時運行並對新輸入做出動態響應,非常適合交互式環境。雖然它們在長跨度內保持物理一致性方面仍有困難,但能生成視覺上非常引人入勝的內容。
World Labs 等公司的顯式3D表徵模型走的是另一條路,通過構建持久的3D場景表徵,以較低的推理成本提供強大的空間一致性。目前這些環境還是預生成且靜態的,但 World Labs 已表示實時交互已列入其路線圖之中。
基於 AMI Labs 開創的聯合嵌入預測架構(JEPA)的潛空間預測模型完全避免了像素生成,而是通過在壓縮的潛空間中預見未來狀態。這種方法算力效率極高,且避開了許多視覺上的失效模式,但可解釋性有所下降。雖然每種範式都取得了顯著進展,但關鍵差距依然存在——這些問題的解決將決定世界模型大規模商業化的路徑。
世界模型的商業機會非常廣闊。我們最近分享了對機器人領域世界模型的看法,因為該領域是最顯眼的早期應用之一。通過生成無限的合成訓練環境,世界模型解決了困擾物理AI數十年的數據匱乏問題。自動駕駛領域正證明了這一點,Waymo 和 Wayve 利用世界模型模擬罕見的極端案例,而這些案例在現實測試中是無法以經濟的方式複製的。同樣的核心能力還能解鎖更多領域,如國防、醫療、工業運營和企業規劃中的高風險模擬。
世界模型並非某種針對特定垂直行業的工具——它們是機器智能的新基石,其作用與LLM 對文本推理的作用類似。那些早期在其基礎上進行構建的行業,在部署現實世界智能體方面將擁有巨大的先發優勢。我們對那些正在構建讓世界模型跨行業應用成為可能的架構和模擬器的公司感到興奮。
第一代AI基礎設施公司構建了智能引擎——即證明了AI能力的模型、算力集群和訓練流水線——而下一代則必須構建神經系統和駕馭工具,讓AI能夠在現實世界中感知、記憶、適應並持續運行。這些前沿領域代表的不僅僅是對現有基礎設施的增量式改進。在這些領域深耕的公司不只是在優化延迟或降低成本;他們正在解決那些將「令人驚歎的 Demo」與「能創造持久價值的可靠系統」區分開來的根本性挑戰。
我們相信,2026年將是AI基礎設施重心發生決定性轉移的一年,它將重新定義今年及未來AI原生運營的樣貌。
譯者:boxi。