繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

1年漲五倍,巨頭押注「小模型」

2025-09-02 13:30

原標題:1年漲五倍,巨頭押注「小模型」 來源:虎嗅網

端側模型和小模型這件事,在人工智能行業如今並不新鮮。

去年,Meta、微軟、蘋果等就集中發佈了一系列小模型,Llama-3、Phi-3、OpenELM等。

2019 年成立的 Multiverse Computing,試圖用所謂「量子物理」方式給模型瘦身:它的核心技術 CompactifAI 能將大模型體積壓縮 95%,卻幾乎不損失性能,讓原本只能在數據中心運行的 AI,裝進手機、汽車里。

這也讓這家公司獲得了資本的青睞,截至今日,Multiverse Computing已經完成了5輪融資。2024年3月,這家公司完成了2500萬歐元的A輪融資,一年多后B輪融資直接衝到1.89億歐元,估值從2024年的1.08億美元,漲到5億美元,一躍成為西班牙*的AI初創公司之一。

兩周多前,這家公司發佈了兩款「世界最小的模型」——雞腦(chicken’s brain)和蒼蠅腦(a fly’s brain)。「蒼蠅腦」是Hugging Face開源模型SmolLM2-135的壓縮版本,原始參數是1.35億,壓縮之后只有9400萬參數。「雞腦」則是Llama3.18B模型的壓縮版本,可以直接在蘋果電腦上運行,無需聯網。

這背后藏着太多值得拆解的問題:「量子瘦身」 技術究竟是噱頭還是真功夫?當模型被壓縮時,是否也會影響其性能?團隊推出的 「蒼蠅腦」「小雞腦」 超小模型,又是如何突破硬件限制,甚至吸引蘋果、三星等巨頭洽談合作?在 Meta、谷歌、微軟紛紛下場做小模型,眾多初創公司爭搶 AI 效率賽道的當下,Multiverse 憑什麼建立技術壁壘,成為西班牙估值最高的 AI 初創企業之一?虎嗅與量子計算領域的業內人士交流,試圖理清這些問題。

4年5輪融資,估值一年漲5倍

Multiverse Computing並非一開始就進入模型賽道。

2019年團隊成立之初,其聚焦量子計算軟件,試圖用量子技術解決金融領域的投資組合優化、風險管理等難題,這些在傳統IT技術上難以被功克。

憑藉技術積累,Multiverse很快被第三方數據分析與諮詢機構Gartner評為量子計算領域的「Cool Vender」。Gartner的這份Cool Vendor的報告,主要涵蓋科技創新領域,每個領域只有4家-5家公司能上榜,金融人士更是將這份榜單視為「投資寶典」。藉此,Multiverse還獲得了歐盟加速器EIC 1250萬歐元的資金支持,成了歐洲資本最充足的量子初創公司之一。

Multiverse的團隊中,40% 成員擁有博士學位,核心成員更是橫跨金融、量子物理與科技創業三大領域 ——CEO 恩里克身兼數學、計算機、醫學博士與 MBA,有 20 年銀行業經驗,曾任西班牙 Unnim 銀行副 CEO;聯合創始人羅曼是歐洲*量子物理學家,專攻張量網絡,拿過歐洲物理學會青年研究獎;CTO 塞繆爾則是量子計算與機器學習雙料專家,熟悉創業與投資邏輯。

轉折點出現在 2023 年。生成式 AI 爆發后,大模型參數規模暴漲,算力成本飆升成了行業普遍痛點 ——OpenAI 每周在 ChatGPT 推理上的支出甚至超過訓練成本。恩里克和團隊敏鋭發現,他們深耕多年的量子張量網絡技術,恰好能破解這一困局:量子多體系統中的數學技巧,可用於大模型參數的高效壓縮,且能*程度保留性能。

基於這一判斷,團隊火速組建 AI 壓縮專項組,年底就推出了核心技術 CompactifAI,正式從 「量子 + 金融」 轉向 「量子 + AI」。這次轉向不僅讓 Multiverse 踩中了 「小模型」 風口,更讓它在 2024-2025 年迎來爆發,成為西班牙*的 AI 初創企業之一。

「量子瘦身」靠譜嗎?

Multiverse的故事核心,是一套叫做Compactif AI的壓縮技術。它不像行業常用的量化、蒸餾技術那樣簡單削減參數,按照Multiverse自己的介紹,這套技術是用量子物理張量網絡方法,融合張量分解、矩陣低秩近似等複雜數學技巧,從模型底層重構參數邏輯。

正如聯合創始人奧魯斯所説:"我們的壓縮技術並非計算機科學領域常見的套路,而是源自我們對量子物理的理解,更加微妙而精煉。」

不過,虎嗅詢問了量子計算領域的業內人士,Multiverse所使用的這套數學方法雖然是量子中常用的,但其實只是一類數學方法,嚴格意義上和量子物理無關,因為張量網絡問題最初就是物理學家從數學研究中借鑑到量子物理中的。

所謂的張量網絡方法,通俗比喻就是,你要拼一個一萬平方米的拼圖,拼完后爲了存放它,需要找一個很大的房子。但如果你把拼圖重新打碎,裝到罐子中,把維度升高,從二維升高到3維,維度越多越方便壓縮,再去掉重複的碎片,就可以裝到一個小盒子里,並且保留幾乎所有信息,需要的時候可以重新還原成大拼圖。

這種方法對大部分模型都適用,因為現在的模型,大多都是神經網絡的變體,差別不大,Multiverse的方法有很強的泛化性。

這件事情的難點在於,要把現有的大語言模型基礎算子/結構抽象出來,形成一套通用的壓縮工作流,這樣無論什麼模型都可以複用。

Compactif AI通常能將型體積縮小80-95%而準確率只下降2-3個百分點。例如,原本需要數十億參數的模型壓縮后可能只有幾億參數,卻在絕大多數基準測試中與原模型表現相當。

目前Multiverse已發佈多個壓縮模型版本,例如Llama 4 70B模型的精簡版"Llama 4 Scout Slim",以及Llama 3系列和Mistral小模型的精簡版等。

2025年8月,公司發佈了兩款號稱"史上最小且高性能"的模型,並以動物大腦體積命名——SuperFly(蒼蠅腦)和ChickBrain(小雞腦)。

SuperFly基於135M參數的開源SmolLM模型壓縮而成,僅含9400萬參數,相當於一隻蒼蠅的大腦大小;ChickBrain則由Meta的Llama 3.1系列8B模型壓縮成3.2B參數(壓縮率60%),大小如小雞大腦,卻具備一定推理能力。

ChickBrain(3B)的基準測試結果 ChickBrain(3B)的基準測試結果

這件事的商業價值也很明顯,CompactifAI帶來的直接好處是成本與效率優化。

根據Multiverse公佈的數據,其瘦身版模型推理速度是未壓縮模型的4-12倍,對應推理成本降低50-80%。在AWS雲服務上,使用CompactifAI壓縮后的模型可大大節省費用。

例如,壓縮過的Llama 4 Scout Slim在AWS上的調用費用約為每百萬tokens 0.10美元,而原版約為0.14美元,也就是説,每處理百萬tokens可以節省約30%費用。另外,CompactifAI讓此前只能在昂貴服務器上運行的AI模型進入了"平民設備"時代。Multiverse聲稱其部分精簡模型"小到可以在PC、手機、汽車上運行"。

目前,Multiverse提供了3種商業服務模式:(1)通過 AWS API,將壓縮后的模型與原始模型均可通過 API 訪問;(2)購買私有部署許可,提供企業級授權,允許用户在自己的本地基礎設施或雲環境中部署 CompactifAI;(3)通過服務提供商交付,讓Multiver為用户壓縮模型,並交付指定的推理服務提供商。

CompactifAI的用户主要是廣泛使用大模型的企業和開發者。大型互聯網和軟件企業的AI團隊是首要客户,他們往往部署開源LLM在自己的應用中,如客服聊天機器人、代碼自動補全、文本分析等,但也必然面臨高昂的推理開銷和延迟問題。CompactifAI可以幫助他們大幅削減算力成本,甚至支持離線部署。

CompactifAI在降本增效和邊緣部署方面功能突出。它可以將一個部署在8張A100 GPU上的LLM壓縮到1-2張GPU即可運行,甚至壓縮到能夠在CPU上實時推理。這為客户節省的不僅是每小時數百美元的雲GPU租用費,還有巨大的能耗開銷。

小模型和端側模型——巨頭雲集的賽道

Multiverse 的技術,很快吸引了全球硬件巨頭的關注。據其透露,目前已與蘋果、三星、Sony、HP 等洽談合作,核心是將 「蒼蠅腦」「小雞腦」 這類超小模型嵌入下一代終端設備——這恰好契合蘋果的戰略:2024 年 WWDC 大會上,蘋果推出 「Apple Intelligence」 框架,明確表示不追通用巨無霸模型,優先做適配 iOS/macOS 的輕量化本地模型。

不過,賽道競爭也在加劇。2024 年起,科技巨頭紛紛下場小模型:Meta 發佈 13 億參數 LLaMA 微型模型,Google DeepMind 推出 2 億 - 7 億參數的 Gemma,微軟 Phi 系列用 14 億參數模型在數學、編碼任務上超越 50 倍體積的大模型;初創公司中,Neural Magic、Deci 等也在爭搶 AI 效率賽道,聚焦模型加速、自動選型等方向。

AI推理優化已經成為創投圈新的競技場。初創公司陣營也不甘示弱。除了Multiverse外,Neural Magic、Deci、OctoML都在下場大模型效率賽道;還有初創公司專注於模型路由、自動選型等,將不同模型按成本和效果自動分配。 這些公司切入點各異,但都瞄準了"提高AI性能/成本比"這個共同目標。

虎嗅與量子計算領域人士交流,鑑於如今的大語言模型基本架構類似,Multiverse的壁壘並不算太高,端側模型和小模型不同,雖然都需要模型輕量化,但端側模型除了需要輕量化,還需要配合不同設備的計算資源(內存、算力),以及能耗、發熱等調節小模型,需要有特別設計,是一個工程化的問題。

Multiverse如果能夠綁定一家硬件廠商,或許能夠在端側模型上建立自己的生態壁壘。

另一方面,Multiverse如今大部分還是圍繞已有模型壓縮,而不是自己訓一個小模型,在效果上,可能不會達到驚艷的效果,而且極度依賴原有的模型能力。

目前已經有一些專注小模型的初創公司除了壓縮模型,還自己訓練小模型,達到了不錯的效果。Multiverse可能在模型壓縮上,通過自身團隊積累的技術,能夠實現較小的壓縮損耗,但后續在端側模型佈局上的工程化問題,以及模型能力本身的技術壁壘,仍然有待觀察。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。