熱門資訊> 正文
2025-02-02 15:44
機器之心報道
機器之心編輯部
大部分人可能想不到,2025 年的春節,大模型圈子竟然會這麼熱鬧。
一切還要從十天前説起,DeepSeek 正式開源了 DeepSeek-R1,在數學、代碼和自然語言推理等任務上比肩 OpenAI o1 正式版。一眾 AI 研究者感到「震驚」,紛紛猜測這是如何做到的。英偉達市值幾千億美元級別的震盪,更是讓全世界看得目瞪口呆。
關於 DeepSeek 技術創新的討論也非常多。很多人認為,DeepSeek 在硬件受限的條件下被逼走出了一條不同於 OpenAI 等狂堆算力的道路,用一系列技術創新來減少模型對算力的需求,同時獲得性能提升。
被「神祕的東方力量」DeepSeek 「硬控」之后,硅谷的態度耐人尋味:從一開始的盛讚,到后來的網絡攻擊和審查,足以折射出中國 AI 崛起帶給大洋彼岸的衝擊力。
這讓我們想起谷歌研究員早在 2023 年做出的悲觀預判:「我們沒有護城河,OpenAI 也沒有。」
如果往更深一層想,他們可能會發現,恐慌和焦慮的源頭早已種下,並不單單是一家 DeepSeek 造成的。
是時候重新審視中國大模型了,包括文心一言、豆包、可靈在內的所有玩家。
國產大模型,已經全面崛起
經歷了過去兩年的狂飆,中國大模型已經在多個垂直賽道中強勢崛起,跨過了護城河。
在 DeepSeek 之外,文心一言的 RAG 能力、可靈的文生視頻、豆包的語音生成等等,都已超越美國的對標模型。
最早可以從視頻生成領域的「超車」説起。OpenAI 在 2024 年春節期間發佈了 Sora,去年也被稱為視頻生成技術的爆發之年。但在 6 月,可靈橫空出世,做到了文生視頻技術在產品落地層面的實質領先,第一次讓硅谷覺得「中國的 AI 技術有自己的優勢。」
我們意識到,中國可能不需要反覆經歷「追趕 OpenAI」的遊戲。后續的故事再次印證了這個觀點。
2024 年 5 月面世的 GPT-4o,給 ChatGPT 帶來實時語音通話能力,但真正全面開放這項功能后,用户的實際體驗只能説普普通通。相比之下,2025 年初豆包實時語音大模型正式上線的時候,擬人度、有用性、情商、通話穩定性、對話流暢度等多個維度的表現都堪稱驚艷。且這項功能直接在豆包 App 全量開放、人人免費使用,補齊了國產大模型應用在「端到端語音系統」上的短板。
僅花費 550 萬美元訓練的 DeepSeek R1,又在這個春節假期前暴擊了 AI 圈。依靠沒有任何監督訓練的純強化學習路線,以及面向 H800 的大量優化創新,短短几周內,就從 Deepseek-v3 基座進化到如今堪比 OpenAI o1 的思維鏈推理能力。
推理模型是當前最火熱的方向,只是這類模型也有自身的侷限性:大模型推理是基於當前已知數據的,在遭遇錯誤的推理路徑時,模型可能會陷入死循環。這也是大模型提升檢索增強能力的意義所在。
相比於視頻生成、語音通話等能力,RAG(檢索增強生成)的概念對大眾可能更陌生一些,但這門結合了語言模型和信息檢索的技術,是當前大模型競爭的核心能力之一。
檢索增強是衡量大模型表現優劣的重要維度,而在這個領域,文心一言毫無疑問是國內 RAG 能力最領先的大模型應用。
作為國內搜索的頭部玩家,百度在這個領域有自己的節奏和路線。百度在文字 RAG 層面已經有多年技術積累,隨后又轉向了探索這門技術在多模態領域的應用。
前段時間,百度創新地將 RAG 技術拓展到了圖像領域,發佈了自研的 iRAG(image-based RAG)技術,旨在降低文生圖的幻覺問題、提升 AI 生圖的準確性。這背后是百度搜索的億級圖片資源和強大的基礎模型能力。
從文心一言的檢索增強 RAG
看中國大模型彎道超車
百度基於搜索技術的積累在 RAG 上具備明顯優勢,推出了百度 AI 原生檢索,持續領先。從 RAG 能力實測來看,國內外主流大模型中,百度文心一言綜合表現最佳。
根據機器之心進行的一些實測,它甚至在很多任務上比 OpenAI 的 ChatGPT 表現更好。比如我們同時打開文心一言和 ChatGPT,能明顯感受出文心 RAG 的領先性。
測試中,即使是最新的春節檔電影細節、春晚節目等內容,文心都能準確回答;相比之下,OpenAI 雖能檢索到信源,卻無法生成準確回答:
比如《封神 2》中讓觀眾感染「看到殷郊就想笑」症狀的三輪法相,文心一言能直接講出電影情節詳細的來龍去脈,而最新的 o3 mini 只能淺淺理解到法相是由 CG 技術做出來的表象。
今年春晚的語言類節目,由於時長限制,大家可能還有些意猶未盡。其實,近來有不少小品都是源自《一年一度喜劇大會》的精彩改編。文心一言不僅準確無誤地報出了改編節目的數量,甚至對《小明一家》將原版媽媽的角色改成了爺爺這一細節都瞭如指掌。o3 mini 這邊僅答對了一半,就顯得有些相形見絀了。
今年春晚熱度最高的節目還藏着一個冷知識 —— 宇樹機器人 H1 為大家扭秧歌,用的是兩種手絹。
仔細看,我們可以發現機器人在出場時,手里揮舞的是兩塊純色的紅手絹,而它們的手臂上纏着兩塊黑色的袖套,里面包裹着可以旋轉的技術手絹。在演出過程中,機器人手臂上的機關啟動,袖套和純色手絹被藏在了機器人身后,手上則像變魔術一樣,瞬間切換成了技術手絹。
這個彩蛋踩到了 o3 mini 的知識盲區,反觀「本地模型」文心一言,就瞭解得很清楚了。
對於最近發生的國際新聞,文心一言給出的事實更準確,信息更全面。再看 o3 mini 給出的這些不準確的數據,看來它和「幻覺」的鬥爭可能還有很長的路要走。
這樣優秀的用户體驗,是如何實現的?
相比於其他家大模型廠商,百度在 RAG 技術上具備中文深度理解、多模態檢索、垂直領域定製化以及實時數據整合能力等優勢,同樣是聯網檢索情況下,文心在中文互聯網、企業服務、政務等場景中更具實用性和競爭力。
具體來説,百度研發了「理解 - 檢索 - 生成」協同優化的檢索增強技術,顯著提升了大模型技術及應用的效果。理解階段,基於大模型理解用户需求,對知識點進行拆解;檢索階段,面向大模型進行搜索排序優化,並將搜索返回的異構信息統一表示,送給大模型;生成階段,綜合不同來源的信息做出判斷,並基於大模型邏輯推理能力,解決信息衝突等問題,從而生成準確率高、時效性好的答案。
相信在 2025 年,RAG 技術還會再上一層樓,帶給用户更好的體驗。
2025,國產大模型會迎來「高光時刻」嗎?
從近期大模型圈子的轟轟烈烈中,我們不難觀察到幾個趨勢:
1、曾經 OpenAI 諱莫如深的「技術黑盒」,正在被逐一破解。
在此之前,國內的很多大模型廠商均未能推出全面對標 OpenAI o1 的模型。DeepSeek 以一家大模型初創公司的身份,成爲了第一個破解「OpenAI 技術黑盒」的玩家。
從複製 Sora 到複製 o1,包括快手和 DeepSeek 在內的中國大模型廠商都做到了。這些足以説明,OpenAI 昔日的諱莫如深,最終還是沒有起到護城河的作用。
面對國產大模型造成的轟動效應,知名 AI 研究者吳恩達近日表示:「中國在生成式人工智能方面正在趕超美國。2022 年 11 月推出 ChatGPT 時,美國在生成式 AI 方面遠遠領先於中國。印象的變化是很緩慢的,所以我一直聽到的是美國和中國的朋友都説他們認為中國落后了。但實際上,這種差距在過去兩年里迅速縮小了。藉助 Qwen、Kimi、InternVL 和 DeepSeek 等來自中國的模型,中國顯然正在縮小差距,而在視頻生成等領域,中國似乎已經處於領先地位。 」
2、藉助大量工程創新,國產大模型已經破除了對「英偉達 GPU」的迷信。
DeepSeek 是一項令人驚歎的工程創新,團隊面臨諸多約束條件,卻依然利用更少的計算能力和資金拿出了 o1 級性能的成果。
對於美國的研究機構來説,他們不會花太多時間進行優化,因為英偉達一直在積極推出更強大的系統來滿足他們的需求,向英偉達付費就是最簡單的路線。
然而,DeepSeek 證明了另一條路線是可行的:在較弱的硬件和較低的內存帶寬上,大量優化可以產生顯著的效果 —— 在 GPU 上支付更多費用並不是打造更好模型的唯一方法。
3、當中國 AI 的競爭對手開始在意、壓制、攻擊,折射出的是對方關於被追趕、超越的恐慌。
在 DeepSeek R1 模型發佈之后,有外媒報道 Meta 的生成式 AI 部門因此陷入到恐慌之中。
據傳,Meta 組建了 4 個團隊,試圖搞清楚 DeepSeek 是如何降低訓練和運行成本的,還有的團隊負責研究 DeepSeek 可能使用了哪些數據來訓練模型。也有團隊專門負責思考基於 DeepSeek 模型的屬性重組 Meta 模型的新技術,畢竟有爆料稱尚未發佈的新一代開源模型 Llama 4 在基準測試中已經落后於 DeepSeek。
而 OpenAI 和微軟也開始調查 DeepSeek 這家競爭對手是否使用了 OpenAI 的 API 來訓練自己的模型。
很顯然,「中國 AI 元年」即將開啟,DeepSeek 春節期間的出圈是這個過程中的里程碑事件,但我們可以更多地着眼未來。
在剛剛開始的 2025 年,中國科技公司還將推出各種大模型,比如百度將推出文心 5.0。對此,你有哪些期待?