熱門資訊> 正文

免費 1500 次背后，商湯在下一盤什麼棋

2026-05-12 16:36

商湯-W(00020.HK) 0

生態與工具鏈，是大模型競爭的下半場

作者｜Cynthia

商湯最近做了一件大多數大模型公司都不捨得做的事。

每 5 小時 1500 次免費調用，Token 消耗比同行低 60%，三款新產品同步上線，還把核心模型 U1 以 Apache 2.0 協議全面開源——在大模型公司普遍在想怎麼收費的當下，商湯在反向操作。

免費從來不是目的。問題是，它圖什麼？答案，是一套從模型、工具鏈到生態鎖定的三層護城河。

如果要給過去三年的大模型行業挑個刺，人肉膠水一定排得上號。

一方面，模型能力越來越強，編程、問答、推理、繪畫，單點拿出來都是專家水平。但問題也跟着來了，這些 SOTA 級的能力，本質上還是一座座互不相通的孤島。

在內容創作、設計創意、編程等工作中，AI 負責了最有創意的環節，卻把圖文整合、校對、排版、內容搬運這些髒活，留給了人類。技術提升帶來的效率紅利，有相當一部分被膠水成本吃掉了。

那麼，能不能把完整方案生成變成模型內置能力？商湯的回答是：不光能，而且免費。

就在前幾天，商湯一舉推出了三個具備完整交付能力的產品與模型：

SenseNova 6.7 Flash-Lite：新一代多模態智能體模型，具備頂尖的 Agent 能力，為複雜數據分析與任務規劃而生，能很好適配高頻、高併發的生產級辦公需求。

SenseNova U1：基於自研的 NEO-unify 原生理解生成統一架構，首創連續圖文創作輸出，實現複雜信息圖生成。

全線辦公技能 SenseNova-Skills：支持海量數據分析、自動化辦公等實戰場景。

而伴隨着產品上線，商湯還推出了SenseNova Token Plan，贈送首月每 5 小時 1500 次免費調用額度，不可謂不豪橫。

要理解這套打法背后的邏輯，先從護城河的第一層説起。

第一層護城河：做別人做不到的事

SeneNova U1：從「會畫畫」到「會思考再畫畫」，差距在哪里？

先聊幾個數字。

U1 於 4 月 28 日正式發佈，兩個版本的模型權重（SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT）均採用 Apache 2.0 協議開源，支持商業使用和本地部署。發佈后迅速在 Hugging Face 收穫大量開發者關注，成功衝進 Trending 榜前列。這個熱度，在最近扎堆發佈的開源多模態模型里，實屬少見。

它憑什麼？答案在架構里。

商湯 SenseNova U1 技術報告認為，多模態智能不應只是把視覺編碼器、語言模型和圖像生成器拼接起來，而應在同一表示空間中同時完成"看、讀、想、畫"。這是 U1 系列模型的核心技術理念，也是 NEO-Unify 架構的出發點。

傳統多模態模型的架構，是視覺編碼器 (VE) + 變分自編碼器 (VAE) 的組合——用 VE 做理解、用 VAE/擴散潛空間做生成。看圖和畫畫是兩套獨立系統，模態轉換過程會帶來信息丟失，表示空間也是割裂的。

具體到架構設計上，NEO-Unify 同時解決了三組長期存在的矛盾：

第一，近無損視覺接口。輸入端不用 CLIP、SigLIP 等預訓練視覺編碼器，而用兩層卷積加 GELU 將圖像轉為 token；輸出端不用 VAE decoder，而用兩層 MLP 直接預測原始像素 patch。表示空間由模型自身學習，既能承載高層語義，也保留生成所需的局部紋理、文字邊緣和結構細節。

第二，分辨率自適應 flow matching。動態分辨率會導致固定噪聲先驗在不同尺度下信噪比不一致，U1 引入分辨率自適應噪聲尺度，使 256 到 2048 等不同分辨率下的像素空間生成更穩定。

第三，原生 Mixture-of-Transformers（MoT）。理解流與生成流共享 self-attention 上下文，但 Q/K/V/O、LayerNorm、MLP 等參數解耦；文本、理解圖像 token、生成圖像 token 在每層交互，卻保留各自表徵專長。同時，三維 RoPE 把 token 放入時間、高度、寬度三軸座標，從位置編碼層面統一了語言順序與二維結構。

這套機制的關鍵價值在於：MoT 的參數解耦加共享注意力上下文，能降低理解與生成之間的內在衝突。消融實驗也證實了這一點——即使生成數據和理解數據共同訓練，理解能力仍保持穩定，生成能力反而收斂更快。統一架構不是折中，而是帶來了真正的跨能力協同。

這不只是架構描述，有數據為證：即便是 2B 參數量的 NEO-Unify 模型，在圖像重建基準 MS COCO 2017 上，也達到了 31.56 PSNR、0.85 SSIM 的成績，與公認的業界標杆 Flux VAE（32.65 PSNR、0.91 SSIM）差距不足 1 個百分點——而 Flux VAE 是一個專門為生成優化的獨立組件，U1 是用一個統一架構順帶完成的。更值得關注的是，與同類統一模型 BAGEL 相比，NEO-Unify 在更少的訓練 token 下取得了更好的表現，數據效率的優勢相當顯著。

實測效果如何？

技術報告顯示，在基準測試中 SenseNova U1 展現出均衡且出色的能力譜系。多模態理解上，A3B-MoT 在 MMMU 達 80.55、MMMU-Pro 達 72.83，OCRBench 達 91.90，説明文本密集圖像和通用視覺理解沒有因統一生成而削弱。生成方面，GenEval 總分約 0.91-0.92，組合、計數、顏色、位置和屬性綁定穩定；OneIG 英/中文文本維度最高達 0.969/0.977，LongText-Bench 英/中文達 0.979/0.962，長文本渲染能力尤為突出。

SenseNova-U1 與其他頂級多模態理解模型在多模態基準測試（Benchmarks）

GenEval 上的定量評估結果

在圖文交錯生成（OneIG 中英文、LongText 中英文、CVTG）和信息圖專項（BizGenEval Easy/Hard、IGenBench）的延迟-性能綜合對比里，U1 在同等延迟區間內綜合表現領先 Nano-Banana、Gemma-4 等主流開源模型，是目前開源模型里的 SOTA 水平。在與商業閉源模型的橫向對比中，U1 Lite 在通用圖像生成上的輸出質量已與 Qwen-Image 2.0 Pro、Seedream 4.5 持平；在信息圖這個歷來是開源模型"滑鐵盧"的領域，同樣達到了商業級水準。

舉個例子，輸入「幫我生成一道做炒野生菌的教程」。完整的圖文混排內容，就在十幾秒時間里完整處理好了。它能在多輪推理過程中，邊進行邏輯推導，寫文字並輸出食材、數量、配料、火候，動作對應的草圖，再利用這些自行生成的視覺內容繼續輔助后續推理，生成圖文並茂的完整教程。

生成信息圖也是一句話的事。比如，讓它生成極簡風的大自然碳循環圖。整張圖里的自然界碳循環邏輯完全正確，沒有信息遺漏。在信息呈現上，以模塊化區分不同功能模塊，用符號化的視覺元素替代純文字表述，既保留了有機物化學式、碳酸鹽等專業細節，又通過自然系配色與具象化場景降低了大眾認知門檻。從信息準確度、視覺層級、專業細節保留三個維度來看，是一張相當成熟的科普可視化作品。

過去，AI 無法做到的根本原因在於，類似的內容產出不僅是畫得好，更需要排版美、信息準確、邏輯清晰、字體統一，是多個能力的綜合考驗。傳統的分步生成再拼接模式，一個環節做到 90 分，連續經過五個環節，生成的就是一個只有 59 分的殘次品。

U1 系列模型，通過將理解、推理、生成統一為一個整體，首次讓 AI 交付一個及格線上的完整結果成爲了可能。這正是去掉了創意端最厚的那層人肉膠水。

第二層護城河：低成本把人留住

SenseNova 6.7 Flash-Lite：當 AI 能真正看懂文檔，工作流效率翻幾倍？

U1 更像一個多才多藝的創作者，而 SenseNova 6.7 Flash-Lite 更像一個能管理全局的項目經理。

如果説 U1 解決的是創意端的閉環問題，那 SenseNova 6.7 Flash-Lite 解決的則是完整工作流的問題。它專門為真實世界工作流而生，能穩定支撐數據分析、深度調研、複雜圖片理解、PPT 生成這些長鏈路辦公任務。能力上，它原生支持 OpenClaw、Hermes Agent 等智能體框架，配合 SenseNova-Skills，可以一鍵開啟全自動辦公

傳統智能體模型採用語言+視覺拼接設計，視覺只是文本的補充，無法深度參與核心決策與推理循環。信息在轉譯過程中受損，也會導致 Token 消耗虛高。

6.7 Flash-Lite 不一樣。它能直接看懂複雜的網頁佈局、文檔結構、財務圖表，實現看、想、做一體化。藉助這種真正的「看懂」，6.7 Flash-Lite 也做到了 Token 消耗直降 60%——在信息搜索等場景，對比純文本智能體，這個節省幅度相當可觀。

這正是第二層護城河的核心：讓用户用得更便宜，便宜到不值得換一個平臺。

一個案例。給它一段 36 個月、近 90 萬行銷售記錄的數據，讓它完成完整的企業運營分析報告。

模型沒有直接跳入統計，而是先進行數據審計，敏鋭地察覺到單價中的異常離群值，判斷這些極值對應了促銷或高端單品場景，予以保留以反映真實市場波動。這是模型主動發現的問題，而非用户指定分析方向——這纔是真正的亮點所在。

分析毛利時發現辣椒類 2022 年 5 月出現嚴重負毛利，進一步探尋供應鏈環節，診斷出採購成本控制與零售定價間缺乏聯動機制的問題，並主動提出了五項精準建議：建立動態定價機制、調整品類結構等，直接輔助管理層決策。

當然，6.7 Flash-Lite 的能力遠遠不止是分析數據。

數據分析之外，6.7 Flash-Lite 還能直接生成 PPT。從敍事邏輯到版面設計全自動產出，風格統一、元素對齊，生成即交付。從數據分析到內容呈現，中間不再需要人來搬運——這正是去掉了交付端最后一層人肉膠水。

第三層護城河：工具鏈讓人走不掉

大模型公司的競爭，已經從模型能力蔓延到了生態與場景。

當 GPT 和 Claude 的能力差距已經從代際碾壓變成各有千秋，開源模型的能力已經不斷逼近閉源 SOTA 水平，單靠模型性能已經很難形成持續的競爭優勢。這時候，誰能讓用户用得更省心、更便宜、更完整，誰就能在激烈的競爭中脫穎而出。

商湯的 SenseNova 體系，正是新規則下的代表性玩家。

要理解這套生態的鎖定邏輯，可以借用一個經典的商業模型：剃须刀與刀片。

免費或低價提供剃须刀（模型和調用額度），通過持續消耗刀片（工具鏈使用量和規模化付費）來盈利。商湯的三層護城河，本質上都是在服務這一個飛輪。

模型差異化，是讓人願意第一次進來。NEO-Unify 架構讓 U1 在信息圖生成、圖文交錯、多步推理上做出了真正的差異——技術報告中的消融實驗也證實，這種統一不是能力折中，而是帶來了理解與生成的雙向協同增益，是競爭對手短期內難以複製的技術壁壘。

低成本 Token 輸出，是讓人不捨得走。首月每 5 小時 1500 次的免費額度，加上長期比同行低 60% 的 Token 消耗，把試錯成本壓到最低。Apache 2.0 的開源協議，進一步消除了開發者進入的心理門檻。

值得一提的是，U1 的推理系統並非停留在論文結構：LightLLM 負責多模態理解與請求調度，LightX2V 負責圖像生成，兩者通過共享內存和優化傳輸 kernel 交換狀態，FlashAttention3 后端在統一多模態 prefill 中相比 Triton 有約 2.3 到 3.2 倍的加速——正是這套可服務、可擴展的基礎設施，才撐起了低成本大規模商用的底氣。

工具鏈的完整性，是讓人真的走不掉。商湯的生態不只有模型，還包括：

SenseNova-Skills：覆蓋信息圖生成、PPT 創作、數據分析、深度調研等高頻辦公場景

Agent Pack：集成了 Hermes Agent 和 OpenClaw 框架的一鍵部署包

結合起來，當開發者因為低成本開始嘗試商湯的工具鏈，會逐漸被工具鏈以及交付產品的完整性所吸引；當他們習慣了整套工作流的協作效率，換平臺的遷移成本就會變得極高；當這種使用習慣擴散到整個團隊，商湯就擁有了用户粘性帶來的持續付費。

這套閉環一旦形成，就會在開發者生態中產生網絡效應：用的人越多，貢獻的反饋和案例越多，模型迭代的方向就越精準，工具鏈的打磨就越完善，Token Plan 的成本攤薄效應就越明顯。

當然，這一飛輪要真正轉起來，前提是商湯能在競爭激烈的窗口期內迅速積累足夠的用户基數。DeepSeek、Qwen、InternVL 們都在同一條賽道上全力衝刺，這場仗遠沒有結束。

但至少眼下，商湯給出了一個值得認真對待的答案：用一套從架構創新（NEO-Unify）到工具閉環（SenseNova-Skills）再到成本優勢（Token Plan）的完整體系，把"去人肉膠水"從一句口號，變成了可交付的產品。

技術報告的結論説得直接：多模態智能的未來突破，並不只是簡單的規模擴大，更重要的是朝着深度融合進化的內核架構創新。這句話，也許正是商湯這盤棋真正的謎底。

對於開發者和企業來説，現在正是低成本進入這套生態、驗證其價值的最佳窗口期。

大模型的競爭里，技術領先只是起點，生態鎖定纔是終點。

SenseNova U1：

https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills：

https://github.com/OpenSenseNova/SenseNova-Skills

TokenPlan 免費領取：

https://sensenova.sensetime.com/

免費 1500 次背后，商湯在下一盤什麼棋

推薦文章

時隔九年再訪華！特朗普攜最強商業天團隨行，美股半導體、存儲、航空等七大板塊或迎來利好

別隻盯着芯片股了！AI軟件股深V反轉，多隻龍頭股月內已漲超60%，上車機會來了？

美股機會日報 | 「沃什時代」開啟！美聯儲今日正式「換帥」；H200芯片售華松綁？英偉達盤前漲超2%劍指六連漲

一圖看懂 | 營收、淨利雙雙超預期！中芯國際Q1銷售收入25.05億元，同比增超11%

德意志銀行大幅上調英特爾目標價至100美元 分析師關注晶圓代工業務進展

財報前瞻 | 黃仁勛曝重磅利好！英偉達Q1財報或上演 「碾壓式」 超預期，如何提前部署期權策略？

新股申購 | 創新葯公司丹諾醫藥-B今起招股！一手入場費3823.17港元

AI算力革命下半場，黃仁勛大筆押注光纖！港美股光通信主線行情爆發，哪些重點標的值得關注？

德意志銀行大幅上調英特爾目標價至100美元分析師關注晶圓代工業務進展

財報前瞻 | 黃仁勛曝重磅利好！英偉達Q1財報或上演「碾壓式」超預期，如何提前部署期權策略？