繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

免費 1500 次背后,商湯在下一盤什麼棋

2026-05-12 16:36

生態與工具鏈,是大模型競爭的下半場

作者|Cynthia

商湯最近做了一件大多數大模型公司都不捨得做的事。

每 5 小時 1500 次免費調用,Token 消耗比同行低 60%,三款新產品同步上線,還把核心模型 U1 以 Apache 2.0 協議全面開源——在大模型公司普遍在想怎麼收費的當下,商湯在反向操作。

免費從來不是目的。問題是,它圖什麼?答案,是一套從模型、工具鏈到生態鎖定的三層護城河。

如果要給過去三年的大模型行業挑個刺,人肉膠水一定排得上號。

一方面,模型能力越來越強,編程、問答、推理、繪畫,單點拿出來都是專家水平。但問題也跟着來了,這些 SOTA 級的能力,本質上還是一座座互不相通的孤島。

在內容創作、設計創意、編程等工作中,AI 負責了最有創意的環節,卻把圖文整合、校對、排版、內容搬運這些髒活,留給了人類。技術提升帶來的效率紅利,有相當一部分被膠水成本吃掉了。

那麼,能不能把完整方案生成變成模型內置能力?商湯的回答是:不光能,而且免費。

就在前幾天,商湯一舉推出了三個具備完整交付能力的產品與模型:

SenseNova 6.7 Flash-Lite:新一代多模態智能體模型,具備頂尖的 Agent 能力,為複雜數據分析與任務規劃而生,能很好適配高頻、高併發的生產級辦公需求。

SenseNova U1:基於自研的 NEO-unify 原生理解生成統一架構,首創連續圖文創作輸出,實現複雜信息圖生成。

全線辦公技能 SenseNova-Skills:支持海量數據分析、自動化辦公等實戰場景。

而伴隨着產品上線,商湯還推出了SenseNova Token Plan,贈送首月每 5 小時 1500 次免費調用額度,不可謂不豪橫。

要理解這套打法背后的邏輯,先從護城河的第一層説起。

01

第一層護城河:做別人做不到的事

SeneNova U1:從「會畫畫」到「會思考再畫畫」,差距在哪里?

先聊幾個數字。

U1 於 4 月 28 日正式發佈,兩個版本的模型權重(SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT)均採用 Apache 2.0 協議開源,支持商業使用和本地部署。發佈后迅速在 Hugging Face 收穫大量開發者關注,成功衝進 Trending 榜前列。這個熱度,在最近扎堆發佈的開源多模態模型里,實屬少見。

它憑什麼?答案在架構里。

商湯 SenseNova U1 技術報告認為,多模態智能不應只是把視覺編碼器、語言模型和圖像生成器拼接起來,而應在同一表示空間中同時完成"看、讀、想、畫"。這是 U1 系列模型的核心技術理念,也是 NEO-Unify 架構的出發點。

傳統多模態模型的架構,是視覺編碼器 (VE) + 變分自編碼器 (VAE) 的組合——用 VE 做理解、用 VAE/擴散潛空間做生成。看圖和畫畫是兩套獨立系統,模態轉換過程會帶來信息丟失,表示空間也是割裂的。

具體到架構設計上,NEO-Unify 同時解決了三組長期存在的矛盾:

第一,近無損視覺接口。輸入端不用 CLIP、SigLIP 等預訓練視覺編碼器,而用兩層卷積加 GELU 將圖像轉為 token;輸出端不用 VAE decoder,而用兩層 MLP 直接預測原始像素 patch。表示空間由模型自身學習,既能承載高層語義,也保留生成所需的局部紋理、文字邊緣和結構細節。

第二,分辨率自適應 flow matching。 動態分辨率會導致固定噪聲先驗在不同尺度下信噪比不一致,U1 引入分辨率自適應噪聲尺度,使 256 到 2048 等不同分辨率下的像素空間生成更穩定。

第三,原生 Mixture-of-Transformers(MoT)。理解流與生成流共享 self-attention 上下文,但 Q/K/V/O、LayerNorm、MLP 等參數解耦;文本、理解圖像 token、生成圖像 token 在每層交互,卻保留各自表徵專長。同時,三維 RoPE 把 token 放入時間、高度、寬度三軸座標,從位置編碼層面統一了語言順序與二維結構。

這套機制的關鍵價值在於:MoT 的參數解耦加共享注意力上下文,能降低理解與生成之間的內在衝突。消融實驗也證實了這一點——即使生成數據和理解數據共同訓練,理解能力仍保持穩定,生成能力反而收斂更快。統一架構不是折中,而是帶來了真正的跨能力協同。

這不只是架構描述,有數據為證:即便是 2B 參數量的 NEO-Unify 模型,在圖像重建基準 MS COCO 2017 上,也達到了 31.56 PSNR、0.85 SSIM 的成績,與公認的業界標杆 Flux VAE(32.65 PSNR、0.91 SSIM)差距不足 1 個百分點——而 Flux VAE 是一個專門為生成優化的獨立組件,U1 是用一個統一架構順帶完成的。更值得關注的是,與同類統一模型 BAGEL 相比,NEO-Unify 在更少的訓練 token 下取得了更好的表現,數據效率的優勢相當顯著。

實測效果如何?

技術報告顯示,在基準測試中 SenseNova U1 展現出均衡且出色的能力譜系。多模態理解上,A3B-MoT 在 MMMU 達 80.55、MMMU-Pro 達 72.83,OCRBench 達 91.90,説明文本密集圖像和通用視覺理解沒有因統一生成而削弱。生成方面,GenEval 總分約 0.91-0.92,組合、計數、顏色、位置和屬性綁定穩定;OneIG 英/中文文本維度最高達 0.969/0.977,LongText-Bench 英/中文達 0.979/0.962,長文本渲染能力尤為突出。

SenseNova-U1 與其他頂級多模態理解模型在多模態基準測試(Benchmarks)

SenseNova-U1 與其他頂級多模態理解模型在多模態基準測試(Benchmarks)

GenEval 上的定量評估結果

在圖文交錯生成(OneIG 中英文、LongText 中英文、CVTG)和信息圖專項(BizGenEval Easy/Hard、IGenBench)的延迟-性能綜合對比里,U1 在同等延迟區間內綜合表現領先 Nano-Banana、Gemma-4 等主流開源模型,是目前開源模型里的 SOTA 水平。在與商業閉源模型的橫向對比中,U1 Lite 在通用圖像生成上的輸出質量已與 Qwen-Image 2.0 Pro、Seedream 4.5 持平;在信息圖這個歷來是開源模型"滑鐵盧"的領域,同樣達到了商業級水準。

舉個例子,輸入「幫我生成一道做炒野生菌的教程」。完整的圖文混排內容,就在十幾秒時間里完整處理好了。它能在多輪推理過程中,邊進行邏輯推導,寫文字並輸出食材、數量、配料、火候,動作對應的草圖,再利用這些自行生成的視覺內容繼續輔助后續推理,生成圖文並茂的完整教程。

生成信息圖也是一句話的事。比如,讓它生成極簡風的大自然碳循環圖。整張圖里的自然界碳循環邏輯完全正確,沒有信息遺漏。在信息呈現上,以模塊化區分不同功能模塊,用符號化的視覺元素替代純文字表述,既保留了有機物化學式、碳酸鹽等專業細節,又通過自然系配色與具象化場景降低了大眾認知門檻。從信息準確度、視覺層級、專業細節保留三個維度來看,是一張相當成熟的科普可視化作品。

過去,AI 無法做到的根本原因在於,類似的內容產出不僅是畫得好,更需要排版美、信息準確、邏輯清晰、字體統一,是多個能力的綜合考驗。傳統的分步生成再拼接模式,一個環節做到 90 分,連續經過五個環節,生成的就是一個只有 59 分的殘次品。

U1 系列模型,通過將理解、推理、生成統一為一個整體,首次讓 AI 交付一個及格線上的完整結果成爲了可能。這正是去掉了創意端最厚的那層人肉膠水。

02

第二層護城河:低成本把人留住

SenseNova 6.7 Flash-Lite:當 AI 能真正看懂文檔,工作流效率翻幾倍?

U1 更像一個多才多藝的創作者,而 SenseNova 6.7 Flash-Lite 更像一個能管理全局的項目經理。

如果説 U1 解決的是創意端的閉環問題,那 SenseNova 6.7 Flash-Lite 解決的則是完整工作流的問題。它專門為真實世界工作流而生,能穩定支撐數據分析、深度調研、複雜圖片理解、PPT 生成這些長鏈路辦公任務。能力上,它原生支持 OpenClaw、Hermes Agent 等智能體框架,配合 SenseNova-Skills,可以一鍵開啟全自動辦公

傳統智能體模型採用語言+視覺拼接設計,視覺只是文本的補充,無法深度參與核心決策與推理循環。信息在轉譯過程中受損,也會導致 Token 消耗虛高。

6.7 Flash-Lite 不一樣。它能直接看懂複雜的網頁佈局、文檔結構、財務圖表,實現看、想、做一體化。藉助這種真正的「看懂」,6.7 Flash-Lite 也做到了 Token 消耗直降 60%——在信息搜索等場景,對比純文本智能體,這個節省幅度相當可觀。

這正是第二層護城河的核心:讓用户用得更便宜,便宜到不值得換一個平臺。

一個案例。給它一段 36 個月、近 90 萬行銷售記錄的數據,讓它完成完整的企業運營分析報告。

模型沒有直接跳入統計,而是先進行數據審計,敏鋭地察覺到單價中的異常離群值,判斷這些極值對應了促銷或高端單品場景,予以保留以反映真實市場波動。這是模型主動發現的問題,而非用户指定分析方向——這纔是真正的亮點所在。

分析毛利時發現辣椒類 2022 年 5 月出現嚴重負毛利,進一步探尋供應鏈環節,診斷出採購成本控制與零售定價間缺乏聯動機制的問題,並主動提出了五項精準建議:建立動態定價機制、調整品類結構等,直接輔助管理層決策。

當然,6.7 Flash-Lite 的能力遠遠不止是分析數據。

數據分析之外,6.7 Flash-Lite 還能直接生成 PPT。從敍事邏輯到版面設計全自動產出,風格統一、元素對齊,生成即交付。從數據分析到內容呈現,中間不再需要人來搬運——這正是去掉了交付端最后一層人肉膠水。

03

第三層護城河:工具鏈讓人走不掉

大模型公司的競爭,已經從模型能力蔓延到了生態與場景。

當 GPT 和 Claude 的能力差距已經從代際碾壓變成各有千秋,開源模型的能力已經不斷逼近閉源 SOTA 水平,單靠模型性能已經很難形成持續的競爭優勢。這時候,誰能讓用户用得更省心、更便宜、更完整,誰就能在激烈的競爭中脫穎而出。

商湯的 SenseNova 體系,正是新規則下的代表性玩家。

要理解這套生態的鎖定邏輯,可以借用一個經典的商業模型:剃须刀與刀片。

免費或低價提供剃须刀(模型和調用額度),通過持續消耗刀片(工具鏈使用量和規模化付費)來盈利。商湯的三層護城河,本質上都是在服務這一個飛輪。

模型差異化,是讓人願意第一次進來。NEO-Unify 架構讓 U1 在信息圖生成、圖文交錯、多步推理上做出了真正的差異——技術報告中的消融實驗也證實,這種統一不是能力折中,而是帶來了理解與生成的雙向協同增益,是競爭對手短期內難以複製的技術壁壘。

低成本 Token 輸出,是讓人不捨得走。首月每 5 小時 1500 次的免費額度,加上長期比同行低 60% 的 Token 消耗,把試錯成本壓到最低。Apache 2.0 的開源協議,進一步消除了開發者進入的心理門檻。

值得一提的是,U1 的推理系統並非停留在論文結構:LightLLM 負責多模態理解與請求調度,LightX2V 負責圖像生成,兩者通過共享內存和優化傳輸 kernel 交換狀態,FlashAttention3 后端在統一多模態 prefill 中相比 Triton 有約 2.3 到 3.2 倍的加速——正是這套可服務、可擴展的基礎設施,才撐起了低成本大規模商用的底氣。

工具鏈的完整性,是讓人真的走不掉。商湯的生態不只有模型,還包括:

SenseNova-Skills:覆蓋信息圖生成、PPT 創作、數據分析、深度調研等高頻辦公場景

Agent Pack:集成了 Hermes Agent 和 OpenClaw 框架的一鍵部署包

結合起來,當開發者因為低成本開始嘗試商湯的工具鏈,會逐漸被工具鏈以及交付產品的完整性所吸引;當他們習慣了整套工作流的協作效率,換平臺的遷移成本就會變得極高;當這種使用習慣擴散到整個團隊,商湯就擁有了用户粘性帶來的持續付費。

這套閉環一旦形成,就會在開發者生態中產生網絡效應:用的人越多,貢獻的反饋和案例越多,模型迭代的方向就越精準,工具鏈的打磨就越完善,Token Plan 的成本攤薄效應就越明顯。

當然,這一飛輪要真正轉起來,前提是商湯能在競爭激烈的窗口期內迅速積累足夠的用户基數。DeepSeek、Qwen、InternVL 們都在同一條賽道上全力衝刺,這場仗遠沒有結束。

但至少眼下,商湯給出了一個值得認真對待的答案:用一套從架構創新(NEO-Unify)到工具閉環(SenseNova-Skills)再到成本優勢(Token Plan)的完整體系,把"去人肉膠水"從一句口號,變成了可交付的產品。

技術報告的結論説得直接:多模態智能的未來突破,並不只是簡單的規模擴大,更重要的是朝着深度融合進化的內核架構創新。這句話,也許正是商湯這盤棋真正的謎底。

對於開發者和企業來説,現在正是低成本進入這套生態、驗證其價值的最佳窗口期。

大模型的競爭里,技術領先只是起點,生態鎖定纔是終點。

SenseNova U1:

https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills:

https://github.com/OpenSenseNova/SenseNova-Skills

TokenPlan 免費領取:

https://sensenova.sensetime.com/

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。