熱門資訊> 正文
2026-04-10 20:26
近日,這樣一款名為 HappyHorse-1.0 的神祕模型悄然登頂 Artificial Analysis 視頻模型排行榜,排在了 Seedance 2.0、Kling 3.0 以及目前所有其他視頻生成模型之上。
現在,它終於被「認領」了。4 月 10 日,阿里巴巴在多個社交平臺發文稱,HappyHorse 為其 ATH-AI 創新事業部自研產品,正在內測中,即將正式開放,並表示「目前尚未上線,網上流傳的那些‘官網’都不是真的」。
Artificial Analysis 稍后也在 X 平臺發佈信息稱,HappyHorse-1.0 由阿里巴巴支持四種視頻生成模式:文本轉視頻和圖像到視頻,均支持原生音頻和不帶原生音頻,API 訪問計劃於 4 月 30 日上線。
最初,Artificial Analysis 官方在公佈該模型時使用了「假名匿名」一詞。它無團隊名稱、無所屬機構,僅憑實力一路連勝。
在 Artificial Analysis 的文本生成視頻、圖像生成視頻(無音頻)兩項榜單中,HappyHorse 1.0 登頂第一已有多日,而且勝負差距十分懸殊。
Artificial Analysis 視頻競技場堪稱當前 AI 視頻模型領域最接近可信、獨立的權威排名,該平臺採用盲測用户投票機制:用户看到由同一提示詞生成的兩段視頻,在不知道對應模型的情況下選出更優的一段,大量投票最終匯總為模型評分。投票結果通過國際象棋同款 Elo 積分系統進行排名,沒有實驗室精挑細選的演示樣本,沒有自報的 FID 分數,完全是大規模人類盲選的真實偏好。
有消息稱,作為一款 AI 視頻生成模型,HappyHorse 1.0 同時支持文本生成視頻(T2V)與圖像生成視頻(I2V)。其獨特之處就在於音視頻聯合生成架構,由一個統一的 Transformer 架構同時完成兩項任務。它能在單次推理過程中一次性同步生成視頻與音頻,而非先出視頻、后期再配音。也就是説,當音頻與視頻在同一前向傳播流程中生成時,對話、環境音、擬聲音效均可天然同步,無需額外獨立處理流程。
當前,絕大多數 AI 視頻模型要麼完全捨棄音頻(如 Kling、Runway),要麼在視頻生成完成后,通過獨立流程單獨生成音頻(如 Veo 3)。HappyHorse 1.0 則另闢蹊徑:文本、圖像、視頻幀與音頻 token 共享同一套 40 層 Transformer 序列。
該模型的主要技術亮點共包括:
統一 40 層自注意力 Transformer 架構(約 150 億參數)
DMD-2 蒸餾技術:僅需 8 步去噪,速度遠快於常規擴散模型
原生音視頻聯合生成:輸出天然同步,無需后期對齊
支持 7 種語言口型同步:英語、普通話、粵語、日語、韓語、德語、法語
內置超分模塊,原生輸出 1080P 視頻
MagiCompiler 推理加速:在單張 H100 顯卡下,256P 視頻約 2 秒生成,1080P 視頻約 耗時 38 秒
阿里新部門首作實錘,引爆股價拉昇
不過,HappyHorse 1.0 的身份謎團並未持續太久。阿里巴巴現已公開確認:「HappyHorse 是阿里 ATH 旗下創新事業部研發的模型,目前正處於內測中,也會於近期開放 API。ATH 創新事業部已啟動一個 AI 時代的全新交互方式探索計劃,HappyHorse 是這個探索方向的一部分,更多的產品我們會陸續推出。」
3 月 16 日,阿里巴巴成立 Alibaba Token Hub(ATH)事業羣,建立以「創造 Token、輸送 Token、應用 Token」為核心目標的新組織,幾乎整合通義實驗室、MaaS 業務線、千問事業部、悟空事業部及 AI 創新事業部五大板塊,由阿里巴巴 CEO 吳泳銘直接負責。4 月 8 日,CEO 吳泳銘發佈全員信,再宣佈 AI 相關組織的重大調整,成立集團技術委員會,原通義實驗室升級為通義大模型事業部。
此前有消息稱,HappyHorse 出自阿里旗下淘天集團未來生活實驗室張迪領導的團隊。目前,未來生活實驗室已從淘天集團分拆,劃歸新成立的 ATH 事業羣旗下 AI 創新事業部。負責人張迪為前快手副總裁、Kling AI 技術負責人張迪,他於 2025 年底加入阿里,牽頭多模態 AI 創新工作。
另有消息顯示,負責此次 HappyHorse 視頻生成模型的是來自阿里 ATH 的鄭波團隊。鄭波是阿里巴巴副總裁,清華大學計算機系博士,2006 年到 2017 年,領導谷歌的展示廣告算法團隊以及中國地圖團隊。他在 2017 年 9 月加入阿里巴巴,曾擔任淘寶搜推算法負責人、阿里媽媽 CTO、淘天集團算法技術負責人,主要研究方向為大模型,多模態,決策智能,深度學習,搜索、推薦和廣告算法以及引擎優化等領域。
該消息曝光之際,阿里港股股價也出現了明顯波動,今日開盤后上漲,午后再度拉昇。這一操作套路似乎與今年早些時候的 Pony Alpha 如出一轍:一款神祕模型現身 OpenRouter,引發數周猜測,最終被證實是智譜 Z.ai 的 GLM-5 在正式發佈前進行的隱祕壓力測試。匿名參賽、用真實效果驗證實力,隨后公開身份。
而本次的不同之處在於:HappyHorse 1.0 不只是與現有頭部模型持平,而是實現了很大程度上的全面超越。
根據排行榜的最新數據,在純視覺畫質上,HappyHorse 1.0 在文本轉視頻排行榜和圖像轉視頻排行榜均明顯領先於 Seedance 2.0,Elo 評分相差最多超過 100 、最少也不低於 50 分。通常 5 分的差距只屬於統計誤差,當前的分數之差則絕非偶然。
但一旦加入音頻維度,局面就略有不同了:在文本轉視頻排行榜和圖像轉視頻排行榜上,HappyHorse 1.0 雖然均小幅領先,不過差距要小太多了、幾乎相差無幾。這也説明 HappyHorse 的音頻生成能力是具備競爭力的,但並非其最強項。
不過,有一點需要提醒:新模型的 Elo 分數波動通常更大。這些分數后續還會變動,具體走向尚無法確定。HappyHorse 1.0 正式開放后,樣本數量還會增多。
針對 HappyHorse-1.0 與 Seedance 2.0,CTOL 數字解決方案工程團隊基於真實客户生產場景進行了獨立一對一對比測試,結論客觀而犀利:Seedance 2.0 在自然度、物理邏輯、鏡頭運動處理上依然小幅領先,但在運動控制、提示詞遵循度、複雜現實場景的真實細節方面,兩者差距明顯且不容忽視,而這些差異在評測分數上卻完全體現不出來。該團隊觀察到,HappyHorse 缺少一種生動感,一種 Seedance 在高難度生成中能呈現出的人文温度。
「老實説,我對任何宣稱 HappyHorse 已經超越 Seedance 2.0 的説法都持懷疑態度,我目前還無法信服。」CTOL 團隊寫道。但他們同時指出,Seedance 和谷歌的 Veo 都被嚴苛的內容保護機制嚴重束縛,導致它們 「哪怕只存在極小版權風險的內容,都無法使用」,Veo 在這方面問題最為嚴重。此外,在 Sora 意外推迟上線后,Seedance 與 Veo 仍基本無法廣泛使用,且定價高昂。
「當前頂尖視頻生成模型最大的問題,在於可用性、定價以及過多的限制。」這是 CTOL 數字解決方案公司工程團隊最后得出的結論。「如果 HappyHorse 1.0 能通過開源,在可用性、價格和使用限制上做到更優,那它就會是毫無懸念的贏家。」
有多方消息稱,HappyHorse 1.0 將完整開源:基礎模型權重、蒸餾模型、超分模塊及推理代碼一併放出,且許可協議允許商用與微調。一旦其正式開源,AI 視頻行業格局或將迅速迎來鉅變。對創作者與開發者而言,這意味着,一次下載,即可在自有設備上永久運行;可針對特定風格、角色或視覺美學進行微調;集成至自有產品,無需依賴第三方 API;可查看模型架構,用於安全評估或研究。
不過需要注意的是,即便未來真的開源,該模型的部署門檻或許也不低。當前,阿里官方也並未對此給出確切説明。
參考鏈接:
https://www.theinformation.com/briefings/alibaba-anonymously-launches-new-ai-video-model
https://www.ctol.digital/news/happyhorse-1-0-alibaba-secret-video-ai-tops-2026-leaderboard-vs-seedance-2-0/
本文來自微信公眾號 「AI前線」(ID:ai-front),作者:華衞,36氪經授權發佈。