熱門資訊> 正文
2025-07-25 18:50
作者:澤平宏觀團隊
1956年,達特茅斯會議首次提出AI概念。2012年,深度學習迎來算力革命的黎明。2023年,ChatGPT掀起大模型浪潮。2025年,DeepSeek橫空出世,AI發展迎來轉折點。
從整個社會變革的角度,人工智能仍處於發展初期和應用爆發期。技術上,通用人工智能AGI還很遙遠,AI在接近但還未完全擁有接近人類的邏輯、推理、抽象思維等「智能」能力。商業上,AI技術應用還在商業化早期階段。
人工智能發展提速,未來十年有哪些重大機遇?是否有新的技術路線和應用突破?
從產業大周期看,預計未來人工智能發展有十大機遇:
機遇1:原生多模態大模型佔據主流
機遇2:具身智能發展加速,人形機器人在工業領域大規模落地
機遇3:智能體進化,Agent AI,自主智能解決問題
機遇4:AI科研落地,跨學科融合,解決複雜難題
機遇5:類人智能,賦予AI高級認知能力
機遇6:算法革命,唯算力論失效,低參數、高效率
機遇7:硬件突破,AI芯片跨越摩爾定律瓶頸
機遇8:邊緣AI進步,推動AI原生應用普及
機遇9:AI推動能源效率革命
機遇10:人機對齊,AI安全越來越重要
正 文
機遇1:原生多模態AI成為主流
大模型進化的終極目標是通用化,像人一樣具備處理通用任務的能力,通用人工智能(AGI)。
多模態大模型通過賦予AI「五官」來模仿人類感知多維世界,具備了處理和生產文本之外的語音、圖像、視頻等多維能力的深度模型。
但傳統的多模態模型發展存在明顯限制,在大模型基礎上通過「打補丁」植入其他模態能力,存在反應時間、推理深度、交互限制等瓶頸。
發展原生多模態大模型是大勢所趨。從一開始就採用統一框架和混合多模態數據共生訓練,突破了傳統模型的信息壁壘與效率瓶頸,能夠更精準的理解時空關係。
一是解決反應時長。傳統的多模塊串聯推理延迟達到秒級,比如GPT4.0的響應時長就超過4秒,而原生的GPT-4o平均只需要320毫秒,和人類相當。
二是加強推理深度。由於傳統多模態分階段處理方式,會不可避免的導致細節丟失,如語音中的情感、圖像中的紋理等關鍵信息丟失,缺乏深度時空推理能力。而原生多模態可以直接處理原始信息,在推理精度和深度方面都具備明顯優勢。
三是解除交互限制。傳統多模態依賴對齊精細度,只適用於圖文轉換這類簡單的跨模態任務,交互限制較大,應用場景有限。而原生多模態具備時空感知和搭建動態環境的預測能力,不僅能用於機器人避障決策,成為具身智能落地的必選項;甚至有潛力在腦機接口領域應用,未來實現腦電信號與意念控制結合。
機遇2 :具身智能AI,人形機器人、工業場景先落地
人形機器人硬件難度高、產業空間大,是具身智能集大成者。
但當前的人形機器人工作效率低,在操作精度、靈活度和協調程度方面遠不及人類,且成本高昂。以特斯拉Optimus為例,一臺價格在5——6萬美元,在汽車車間工作的平均速度只有人類的20%——30%,簡單動作上勉強能到人類速度的60%,但長時間后也會因關節過熱而降頻。
長期看,具身智能的商業化鋪開需要多方面技術進步來實現。
一方面,硬件上的工程進步和降本是關鍵。執行器是人形機器人完成動作的關鍵模組,包含減速器、電機、傳感器、絲槓等組成,相當於人類肌肉和關節,佔整體硬件成本達到55%。雖然Optimus通過複雜的設計協同可以完成各種動作,但以目前的工程水平和靈巧手技術人形機器人在行動自由度、複雜度和平滑程度方面遠達不到人類的水平。此外,關節組件的材料升級也是提升可靠性必須攻克的難題。
另一方面,軟件層面運動控制算法進步需要克服訓練的數據障礙,這依賴於多模態的視覺模型發展,以及VR技術進步帶來的訓練數據。人形機器人的AI訓練難度遠超大模型,大模型可以通過數據集擴大實現「舉一反三」,但人形機器人需要和物理世界交互的稀缺多維數據,通常由人為穿戴VR設備來採集,效率低且成本高。另一條路線是仿真模擬訓練,通過讓AI學習互聯網數據來生成視頻訓練機器人。但這條路線的難度也高於VR採集,用AI訓練AI的方法還在探索早期。
機遇3 :智能體進化,Agent AI,自主智能解決問題
2025年初Manus問世讓AI Agent(AI智能體,或稱AI代理)進入大眾視野,AI Agent技術賦予了AI調用軟件工具的能力,讓AI能夠在人類指令下自主規劃並執行相對複雜的任務,最后交付完整成果。
雖然AI Agent較大模型具備更強的通用性和實際商用價值,但由於AI Agent通常處理單一任務,缺乏與其他Agent的協作能力,且學習和適應能力平凡,主要適用於客服機器人、虛擬助手等限定場景。
長期看,工具型的AI Agent只是過渡產品,能進行自主決策的Agent AI纔是演進目標。
Agent AI(自主智能體)不僅在智能協作和管理能力上比單個AI Agent高出一個維度。擁有團隊化、系統級的自主性,可以在更高層次進行任務規劃和行動,還具備在不同環境的任務中進行學習和適應的能力。對比看,自主智能體在兩方面跨越了AI智能體的瓶頸。
一是當前的AI智能體並沒有達到理論上的自主狀態,在缺乏人為干預的情況下通常只是被動響應,無法主動發現問題。自主智能體則能分解目標和分配任務,發現矛盾點后協調處理衝突,有必要時根據環境變化來主動調整策略。
二是AI智能體只能進行單步推理,無法勝任多步驟、長時間複雜任務。而自主智能體擁有多個代理協同規劃,不但智能水平上實現「1+1>2」,還能積累經驗並學習形成多層次的記憶體系,能應用在項目開發、業務流程優化、供應鏈管理等高附加值領域。
從落地看,Agent AI面臨的技術挑戰較大。隨着系統中的代理數量增加,智能體調試複雜度呈指數級增長,單個故障和推理錯誤可能導致整個系統出錯。並且Agent AI的自主水平更高,管理和維護難度大,隨着智能水平的提高,產生行為的不可預測性也在增加。
機遇4 :AI科研,跨學科融合、解決複雜問題
AI賦能科學(AI4Science)是指通過AI技術模擬、預測、優化研究來解決傳統科研進程中的瓶頸。比如對環境要求嚴苛的氣象領域,對人力有要求、耗時長的分子學領域;成本高、涉及跨學科多的生物醫學領域。
AI4Science的重要性體現在四方面:
探索廣度上,傳統人力的科研規模有限,無法處理如材料晶體結構篩選、蛋白質摺疊等超大規模組合優化問題。而AI可通過擴散模型進行萬億級空間的並行篩選,例如DeepMind開發的GNoME耗時17天就完成了相當於人力科研800年的成果,預測了220萬種新材料晶體結構。
計算深度層面,即使在高性能計算的支持下,人類在微觀物理系統狀態的研究能力也十分有限,而AI可以處理高緯度函數,並利用強大的生成能力模擬量子多體系統。
實驗速度上,傳統科研以月、年為實驗周期,而AI科研不僅可以實現分鍾級模擬,還具備自主化實驗設計到執行驗證的能力。
跨知識領域融合是AI科研的核心能力,一是人類的學習能力受到時間和精力的限制,知識更新速度慢;二是跨學科研究對團隊協作的要求高,知識共享和收集流程繁瑣。AI則不存在上述瓶頸。
2024年諾貝爾化學獎授予了基於人工智能的蛋白質結構預測研究。 該技術通過整合多序列比對信息與蛋白質空間結構特徵,最終輸出自由能最低的構象作為預測結果。DeepMind團隊創新性融入了蛋白質的序列進化信息和空間幾何約束等物理特徵,並採用迭代精修策略,顯著提升了預測結果的準確性,實現了跨越式突破。
AI4Science正在重塑科研邊界,其核心價值不僅是效率提升,更是開啟人類獨立無法觸及的新知識疆域——從量子尺度的精準操控到星系級複雜系統的推演,最終推動科學範式的第五次革命。
機遇5:類人智能,賦予AI高級認知能力
智能的本質是什麼?大模型的智能是數據驅動的概率關聯,人的通用智能是基於對自然法則和因果規律的掌握。
神經網絡之父楊立昆認為,現在的AI大模型只是從靜態數據中學習統計相關性,並不具備真正的智能。長期來看,大模型將無法達到AGI水平。
實現AGI就意味要賦予AI高級認知能力,甚至創造出「心智」,為此,世界模型(World Models)概念在2018年問世,其核心理念是讓AI像人類一樣與真實環境交互,在物理世界學習和構建知識體系,是AI研究突破的重要方向。
世界模型和大語言模型從技術路線角度來看完全不同,大模型是被動接受知識,基於統計概率預測下一個token,本質上是相關性推理。而世界模型注重主動學習、因果推理和理解物理規律。
世界模型包括三個核心組件:多模態模型、記憶模型、控制器模型。多模態模型將觀察到的物理世界信息壓縮,記憶模型掌握時間動態和預測,控制器模型負責設立目標和子目標來完成行動和感知。
對比看,大模型的優勢在於快速的知識整合和內容生成,而世界模型可以進行時空推理,掌握物理規律,並可以脱離現實進行模擬預測。
構建世界模型的挑戰也極大,需要跨學科協作,融合認知科學、系統神經科學等不同領域研究觀點。在規模、數據、算力等層面的要求比起大模型是數量級增長。
世界模型已在特定領域小範圍應用。比如,特斯拉用於無人駕駛和機器人的通用世界模型、英偉達的Cosmos工業環境仿真和機器人訓練模型。
總體而言,大模型代表了「數字智能」,世界模型代表了「類人智能」,對應人類認知的研究和模仿,使AI超越生成式工具,具備更接近人類的深度理解和智能水平。但世界模型還處於發育的幼年期,離追趕成熟期的大模型還存在較大距離。
機遇6:算法革命,唯算力論失效,未來要低參數、高效率,抽象思維力
2023年大模型在算力進步的加持下突飛猛進,行業曾盛行「算力充足可以力大飛磚」。隨着模型參數量的堆積超過某個臨界點后,會擁有驚人的表現。如GPT-3、PaLM、LaMDA模型在參數量達到百億時產生「涌現」,準確度顯著提高。
在Scaling Law的指引下,AI發展進而演變為:參數堆疊——擴大訓練——提高算力的三步走共識,而行業競爭加劇下,支持大規模訓練的GPU資源稀缺,供不應求最終演變爲了「唯算力論」。
但到2024年末,「唯算力論」開始逐漸顯露瓶頸:越大的模型,進行擴大訓練的邊際效益遞減也越明顯。比如,GPT4.0是2025年前擁有最大算力資源訓練出的最先進AI模型,OpenAI對其迭代后的GPT5寄予厚望,卻迟迟未能發佈,直接原因是訓練進度滯后,效果未達預期。
2025年DeepSeek的出現給「唯算力論」畫上句號,直接顛覆了「AI訓練必依賴強大算力」的認知。DeepSeek僅用了相對少、較落后的顯卡和較短的訓練時長就推出了V3和R1兩款在性能上優秀,訓練和使用成本卻都低於同類的先進模型。
DeepSeek讓產業界意識到了AI發展已經到了新的轉折點,一方面在算力上內卷無法達到AGI,Scaling Law不再是唯一出路,在算法、數據上嘗試創新;從治理、能源角度進行優化;切入超級應用場景推動商業化落地;甚至於開發新的AI推倒大模型重新來過,這些嘗試都有可能成為下一場AI變革的起點。
算法革新的核心是高效地做減法。
AI模型需要兼顧網絡深度、計算速度、和結果準確度。當前AI大模型參數量大,但複雜不等於效率高。
DeepSeek是首個從「規模定律」轉向「密度定律」做減法的企業,其V3模型的算法優化方法具有很大前瞻性。傳統大模型在調用大參數量的模型時,會激活全部網絡,因此每次輸入時都會對所有參數進行計算,消耗大量計算資源,造成浪費。
而混合MOE的專家分工提升了資源使用效率,解決子模型協作時的傳輸瓶頸,平衡了模型推理的延迟問題,同時大幅減少了對算力需求和能耗,降低了落地成本。
抽象思維一直是AI研究的最大短板,而要實現強人工智能就無法迴避這一點。
當前的大模型需要強大算力支持才擁有近似智能的能力,而人腦僅需要少量算力就可以達到。這是因為模型受限於「具象思維」模式。具象思維的特點是計算確定性,對算法來説,其「感官意識」來源於集成電路閉合輸出的0和1,擅長計算數字和確定性。
抽象思維的特點是模糊和不確定,人的「感官意識」來源於神經元,人的深度抽象能力可以脱離實際對照來生成概念和知識體系,並以此為基礎進行聯想和判斷。
人工智能模型的神經網絡架構設計和人類大腦相似,但機器難以複製思維的載體,因此AI算法還無法做到兼顧模糊和不確定性,這也被視為是機器智能邁向強人工智能的最大障礙和未來長期的攻克方向。
機遇7:AI硬件突破
人工智能的硬件基礎是芯片,半導體行業的進步速度間接決定了未來AI的潛力上限。但當下芯片的小型化面臨前景模糊的難題。
摩爾定律已經失效。芯片的小型化發展是以單個芯片性能的提升爲目標,增加可容納晶體管的數量。摩爾定律是指單個芯片上可容納的晶體管數量每18至24個月翻一倍,性能翻倍、成本減半。從2018年起,40nm到28nm突破開始放緩,28nm后定律失效,到14nm節點的成本不降反升。至此,製程升級帶來邊際的性能提升顯著降低,性價比下降。當下,2nm工藝也在臺積電和三星開啟預生產,但芯片製程接近硅原子物理極限意味着芯片小型化或到達技術邊界,一場硬件革命迫在眉睫。
先進封裝或能為摩爾定律的失效提供下一步破局方向。封裝本是半導體制造的下游環節,先進封裝是指不以單個芯片性能提升爲目標,而是以提升集成后的整個芯片系統的性能為目標,靈活、有效地組合各類芯片為系統級芯片(Soc,System of Chips)來提升性能密度,節約開發時間與成本。
臺積電憑藉着CoWoS先進封裝技術成爲了唯一能代工英偉達AI芯片的晶圓廠。2023年蘋果Ultra Fusion技術實現了「無縫合成」M2 Ultra,突破了「1+1<2」的縫合封裝瓶頸,依靠的也是臺積電的先進封裝技術。
先進封裝有別於傳統封裝在於需要上下游協同定製,從設計、晶圓製造、封測多個環節進行統一研發。而在整個產業鏈中封測廠承擔的技術難度低、話語權小,因此技術推動主要依賴於晶圓代工廠和芯片設計龍頭。目前主流的技術主要仍由臺積電、三星等國際半導體龍頭掌握。
互連技術架構和材料選擇是2nm及以下的另一大進步方向。互連技術指芯片內用金屬線連接的晶體管的架構。隨着芯片節點的進步,晶體管尺寸縮小,連接的金屬線也必須在整體架構中同步縮小,但3nm的互連已十分狹窄接近,金屬間距停留在110um已有20多年,繼續減小線寬或高度將極大增加線的電阻,或導致電流過大使金屬連線斷裂、芯片失效。
主流半導體企業開始探索架構變化和材料替換的可能。2022年,英特爾宣佈將在其20Å代和18Å代(對應2nm、1.8nm)採用新PowerVia背部供電結構和RibbonFET全環繞柵極晶體管。此外,鉬和釕替代銅的可行性正被評估。自1997年IBM宣佈220nm銅雙鑲嵌工藝到展望2nm已經28年,而銅互連工藝或在2nm時代退出舞臺。接下來的晶體管架構和材料決定了未來人工智能的潛力上限。
機遇8:邊緣AI發展,推動原生應用普及
邊緣AI是邊緣計算和人工智能的結合。邊緣設備指手機、傳感器、智能家居等具備本地運算和處理能力的設備。
邊緣計算使得本地設備上產生的數據無需發送回雲端,在本地就可以實時處理,減少響應延迟的同時還提供了更高效的反饋,同時,獨立於網絡的決策系統也提高了完成任務的可靠性,數據儲存在本地也減少了泄露風險。
AI的特點是能夠快速分析大量數據以提取信息進行進一步的預測和決策,因此「AI+邊緣計算」能進一步提高邊緣設備的運行效率和智能化水平。
邊緣AI對算力和算法要求較高。一方面,邊緣設備體積小,以保障性能和續航為前提,兼顧算力和功耗就對芯片就有極高要求。此外,邊緣AI無法達到雲端AI模型的體量,因此優化算法是必選項,數據預處理是必要步驟,常見的技術包括數據清洗、特徵選擇和特徵提取。或採用數據蒸餾,用「教師模型」開發輕量級的「學生模型」也可以提高本地部署效率。
當下,邊緣AI已經開始初步應用於汽車輔助駕駛、VR遊戲、智能工廠、安全攝像頭和可穿戴醫療設備等領域。對傳統邊緣設備升級只是第一步,作為交互革命載體,推動AI原生應用商業化普及是大勢所趨。
比如AI眼鏡,作為原生AI消費電子需要邊緣AI進步來提高能力上限。AI眼鏡注重高精度顯示、深度交互、沉浸式體驗、續航和佩戴舒適度。但當前的邊緣AI技術還無法達到兼顧性能、體驗、重量的水平。以2024年銷量最高的第二代Meta Ray-ban為例,其特點是輕便靈巧,AI功能豐富。芯片方面搭載了高通驍龍AR1,AI採用的是行業頭部的Llama 3模型,但由於端側算力不足,主要AI功能仍需要雲端調用,本地化AI功能十分有限,眼鏡本身的顯示效果也無法做到精細化。
邊緣AI發展將解決AI消費電子市場痛點,推動AI原生應用普及。隨着算力提升和算法優化使複雜模型本地運行成為可能,AI眼鏡的功能不再受物理尺寸和端側算力限制,一場AI時代的交互革命將推動C端需求迎來爆發。更豐富的AI內容生態和原生應用也會出現,與人們的生活和工作場景形成全方位融合,開啟AI的「iPhone時刻」。
機遇9:AI推動能源效率革命
AI熱潮導致全球算力需求以前所未有的速度增長,供需矛盾給能源基礎設施帶來巨大壓力。一次GPT-4訓練消耗的電力相當於上萬户家庭全年用電需求。2024年國際能源署報告顯示,全球數據中心年耗電量已與英國相當,中國數據中心年耗電量也突破1500億千瓦時,相當於一箇中等省份的工業用電總量。
全球數據中心增長將面臨嚴重的供需錯配。比如,美國預計到2028年數據中心用電量平均年增速最高達到26.9%。數據中心建成周期在1——2年,但配套電網的升級周期通常要4——10年,供需錯配預期下能源缺口將越來越大。為此,美國環保局在2025年5月起草法案取消發電廠碳排放限制來確保「AI新基建」的電力供給。
發展綠色AI從需求側、供給側兩大方位去實現。
需求側的首要目標是提高數據中心的資源利用率,降低能耗。全球領先的雲服務商數據中心利用率在30%——40%,傳統的數據中心普遍低於20%。一是部署的模型龐大導致運算需求大,二是大量數據佔用儲存空間,三是服務器通常在無任務時也會維持待機耗能狀態。
當前AI廠商的努力方向主要是算法枝剪和模型蒸餾,以此減少冗余計算和AI本地部署成本。比如DeepSeek-R1採用FP8混合精度計算,將內存帶寬需求降低50%,推理能耗降至傳統大模型的1/10。
除了採取算法優化來降低運算需求外,最直接的方式是改造冷卻系統提高散熱,減少總能耗。比如,聯想海神液冷技術可以將PUE(能源利用效率)降低至最低1.05,戴爾服務器採用浸冷式后能效提高40%。
供給側的大趨勢是擴大可再生能源在能源體系中的佔比。發展清潔能源來應對AI發展帶來的電力需求是全球共識。沙特阿美為在建的全球人工智能中心鋪路,提出「AI+天然氣制氫」方案,並計劃到2030年藍氫產量達成1100萬噸/年。阿布扎比國家石油則投入230億美元開發AI低碳技術。歐盟預計2030年電力結構中綠電佔比將超過60%,計劃將AI調度系統覆蓋率提升至80%。
中國的新能源發展走在前列,「西部液冷中心+東部稀疏模型」調度可實現綠電佔比60%,綜合算力成本降低35%。在東數西算的基礎上,分佈式算力消納和源網荷儲協同也在降低棄風棄光率。比如上海崇明北堡風電場部署分佈式算力節點,90%時間直接使用風電,算力中心綠電利用率95%,年減碳850噸。南方電網AI調度模型整合3500節點數據,實現70%新能源滲透率下的實時電網模擬,棄風棄光率從15%降至5%。
機遇10:人機對齊,AI安全越來越重要
AI安全問題的核心在於,訓練AI在不同情形和複雜環境中做出符合人類價值觀的判斷,即人機對齊問題(Alignment Problem)。
算法和人類學習的方式相似,但並不清楚人類對公平性、安全性、道德性的認知。所以特定領域需要人為篩選、標記數據、在監督學習中應對具體的問題。
第一類是算法搭建謬誤:訓練用的數據樣本是準確的,但訓練規則沒有考慮到統計學偏差。
第二類是數據來源偏見。公共信息本身就存在偏見,數據背后的動機和目標並非純粹理性。因此,當數據已儘可能的具有包容性時,AI的非監督訓練會直接產生道德問題。
第三類是道德困境(Moral Dilemma)。由於人類社會的道德框架並非完全一致,不同的價值觀、文化、認知背景存在道德差異,以共識的行爲準則來建設「AI的道德性」是難題。
為解決人機對齊問題進行嘗試,AI企業除了發佈各自的倫理準則,也通過收集用户反饋進行算法改進,政府監管引導也不可或缺。OpenAI提出過超級對齊要求準則,微軟通過可視化工具和解釋性算法來揭示模型工作機制。各主權政府也相繼出臺文件監管,中國注重安全評估標準和生成內容標識,美國提出算法歧視保護和數據隱私要求,歐洲強調AI的自主性、預防傷害、公平性和可解釋性。