繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Anthropic新模型殺瘋了!成本直降 2/3、性能直逼GPT-5,用户實測:比「吹」的還強,速度超 Sonnet 3.5 倍

2025-10-19 10:16

整理 | 華衞

剛剛,Anthropic 發佈了 Claude Haiku 4.5 版本,現已面向所有用户開放。據悉,這是其最小型模型的最新版本,官方宣傳其性能與 Sonnet 4 相近,「成本僅為后者的三分之一,速度卻超過兩倍」。

Haiku 新版本將立即在 Anthropic 所有免費套餐中上線。該公司認為,新版本對 AI 產品的免費版本而言將具備特殊吸引力,因為它既能提供強大功能,又能將服務器負載降至最低。

Anthropic 發言人表示,「Haiku 4.5 的發佈,意味着所有用户都能通過 Claude.ai 免費使用接近前沿水平的智能。同時,它也為我們的企業客户帶來顯著優勢:Sonnet 4.5 可負責前沿規劃,Haiku 4.5 則為子智能體提供支持,打造出多智能體系統,從而快速、高質量地處理複雜重構、遷移及大型功能構建任務。」

1

 更快、更便宜,性能逼近 Sonnet 4 和 GPT-5

「Haiku 的表現遠超其自身定位。」Anthropic 首席產品官 Mike Krieger 在接受採訪時表示。

Haiku 4.5 是一款混合推理模型,這意味着它能夠根據處理請求的需求,靈活調整所使用的計算資源量。默認情況下,該模型的算法會通過一套僅需有限硬件資源的工作流程生成響應。用户可開啟 「擴展思考」(extended thinking)模式,讓 Haiku 4.5 生成更復雜的響應,不過這類響應的生成耗時會更長。據該公司介紹,Haiku 4.5 能夠處理包含多達 20 萬個 token 信息的多模態提示詞。這一能力使其可以處理大型文件,例如篇幅較長的商業文檔。該模型每次響應最多可輸出 6.4 萬個 token。

Anthropic 表示,這款模型速度更快,性能甚至優於數月前還被視為行業前沿的其他大型模型。例如,在計算機使用能力上,Claude Haiku 4.5 優於該公司 5 月推出的中型模型 Claude Sonnet 4。而在代碼生成能力方面,根據用於測試 AI 系統軟件編碼能力的數據集 SWE-bench Verified 顯示,它的表現與 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近。

並且,Anthropic 引用了一系列新的基準測試結果來支撐這些性能説法。在該公司的測試中,Haiku 在 SWE-Bench 驗證基準測試中得分為 73%,在以命令行為核心的 Terminal-Bench 基準測試中得分為 41%。這一成績低於 Sonnet 4.5,但在兩項測試中均與 Sonnet 4、GPT-5 以及 Gemini 2.5 持平。

測試顯示,在工具使用、計算機使用和視覺推理類基準測試中,Haiku 也取得了相近結果。在 OSWorld 基準測試中,Haiku 4.5 得分達 50.7%,顯著超過 Sonnet 4 的 42.2%。其在模擬人類計算機操作方面的出色能力,為自動化領域開闢了新可能。藉助 Python 工具支持時,該模型數學任務得分達 96.3%;即便不使用工具,也保持着 80.7% 的優異表現。在以終端為核心的編碼任務中,Haiku 4.5 得分 41.0%,同樣優於 Sonnet 4 的 36.4%。

此外,Anthropic 對 Haiku 4.5 開展了一系列詳細的安全性與對齊性評估。該模型的風險行為發生率較低,且對齊表現顯著優於其前代產品 Haiku 3.5。在自動對齊評估中,Haiku 4.5 的總體未對齊行為率在統計上也顯著低於 Sonnet 4.5 和 Opus 4.1。該公司稱,「以這一指標衡量,Claude Haiku 4.5 成爲了我們目前最安全的模型。」

現在,Haiku 4.5 已在全平臺上線。作為開發者,只需在 Claude API 中調用 claude-haiku-4-5 即可使用。其定價為每百萬輸入 tokens 1 美元,每百萬輸出 tokens 5 美元。相比之下,  Sonnet 4.5 的價格是其三倍,其定價為每百萬輸入 tokens 3 美元、每百萬輸出 tokens 15 美元;而 Opus 4.1 的定價更高,為每百萬輸入 tokens 15 美元、每百萬輸出 tokens 75 美元。

值得一提的是,有用户測試后反饋,「‘兩倍多速度’其實還是低估 Haiku 了,説實話。我搭建了一個能直接對比 Sonnet 和 Haiku 4.5 的方法,發現 Haiku 4.5 速度大概是前者的 3.5 倍。而且用户體驗感要好得多,因為 Haiku 能始終保持在‘流暢響應區間’內。」

2

 「解鎖了一整套全新應用場景」

Haiku 4.5 的發佈,延續了 Anthropic 近期一系列備受關注的產品發佈節奏:兩周前,該公司剛推出 Sonnet 4.5;兩個月前,推出了 Opus 4.1。這兩款產品在發佈時均被讚譽爲 「行業領先水平」。而 Haiku 的上一個版本發佈於 2024 年 10 月。

該公司表示,Sonnet 4.5 仍是 Anthropic 性能最強的模型,而 Haiku 4.5 則為用户提供了新選擇:當用户希望獲得接近前沿的性能,同時又追求更高成本效益時,它便是理想之選。「即便對我個人使用而言,儘管它不如 Sonnet 智能,但我在 Claude 上已開始默認使用它,尤其是在移動應用端 —— 因為它能快得多地給出答案。」 Krieger 説道。

此外,該模型的輕量級特性意味着,更易於並行部署多個 Haiku 智能體,或與更復雜的模型搭配使用。

例如,在多模型協同使用方面,Sonnet 4.5 可將複雜問題拆解為多步驟計劃,隨后協調多個 Haiku 4.5 模型組成 「團隊」,並行完成各項子任務。Krieger 指出,讓這兩款模型協同工作,對希望藉助 AI 處理長期項目的企業而言尤為實用。「企業可讓 Haiku 監控金融數據流 —— 由於它體型更小、成本更低、速度更快,能處理更大體量的數據 —— 隨后將初步洞察結果移交 Sonnet,由后者進行更深入的分析。」 他解釋道。

Informa TechTarget 旗下子公司 Omdia 的分析師 Lian Jye Su 表示,Anthropic 設計 Haiku 的初衷顯然就是爲了輔助 Sonnet,「這樣能帶來高得多的成本效益比」 。他補充稱,若用户選擇通過大型模型 Sonnet 運行 AI 項目,會導致 token 消耗量大幅增加,成本也隨之升高;相比之下,將任務分配給 Haiku 這類小型模型,性價比會更高。使用 AI 技術的企業應從一開始就明白,AI 工作流十分複雜,需做好準備,通過混合使用大型與小型模型來提升成本效益。

Futurum Group 分析師 David Nicholson 則對於 Sonnet 4.5 與 Haiku 4.5 之間 「分工協作」 的能力提出了一些疑問:「它們如何拆分任務,又如何確保原始目標的完整性不受影響?每個 Haiku 實例都會生成獨特的數據,執行子任務的所有 Haiku 實例,是否能知曉其他實例的工作內容?將一項任務拆分為子任務的效率,又存在哪些侷限?」

Krieger 表示,Haiku 將首次讓全新的生產環境部署模式成為可能。「它為生產環境中的 AI 開闢了全新應用領域 ——Sonnet 負責複雜規劃,而由 Haiku 驅動的子智能體則快速執行任務,我們為用户提供了一套完整的智能體工具庫,其中每個模型都針對任務的不同環節,具備了智能、速度與成本的最優組合。」

Haiku 4.5 最直接的應用場景還可能出現在軟件開發工具領域。Claude Code 已在該領域廣泛使用,而延迟往往是該領域的關鍵影響因素。在 Anthropic 提供的聲明中,Zencoder 首席執行官 Andrew Filev 將 Haiku 新版本描述為 「解鎖了一整套全新應用場景」。

目前,已有多家企業接入 Haiku 4.5 並反饋了積極效果。代碼初創公司 Augment 的聯合創始人 Guy Gur-Ari 表示,該模型 「達到了我們此前認為不可能的平衡點:接近前沿水平的代碼生成質量,兼具極快的速度與成本效益」。在 Augment 的內部測試中,Haiku 4.5 實現了 Sonnet 4.5 90% 的性能,同時表現與規模大得多的模型相當。

另一家聚焦代碼領域的初創公司 Windsurf 首席執行官 Jeff Wang 稱,Haiku 4.5 「模糊了」 速度、成本與質量之間傳統權衡的界限。「它是一款兼具速度與前沿性能的模型,同時保持了成本效率,也預示了這類模型的發展方向。」演示軟件公司 Gamma 的聯合創始人 Jon Noronha 表示,Haiku 4.5「在幻燈片文本生成的指令遵循能力上,表現優於我們當前使用的模型:準確率達 65%,而我們付費層級模型的準確率為 44%。 這對我們的單位經濟效益而言,是顛覆性的改變」。

3

 5 個月成本暴跌 2/3,AI 經濟邏輯正驚人轉變

此次模型發佈之際,Anthropic 的業務正呈爆發式增長。據該公司發言人稱,其月度年化收入即將突破 70 億美元,而 8 月公佈的這一數據還僅為 50 多億美元。路透社獲取的內部預測顯示,Anthropic 設定的 2026 年年化收入目標為 200 億至 260 億美元,較當前水平增幅將超過 200%,接近 300%。

目前,Anthropic 服務的企業客户已超 30 萬家,企業級產品收入約佔總營收的 80%。在其旗下最成功的產品中,代碼生成工具 Claude Code 表現尤為突出 —— 自今年早些時候推出以來,該工具的年化收入已接近 10 億美元。

「我們現在確實是火力全開。」 Krieger 表示。據瞭解,行業的極速發展,讓 Anthropic 在每次產品發佈后都沒有太多時間安於現狀。該公司在訓練 Sonnet 4.5 的同時,就已啟動了 Haiku 4.5 的研發工作。

Krieger 將過去兩年描述為 「AI 錯失恐懼期」,期間企業紛紛採用 AI 工具,卻缺乏清晰的成功衡量標準;而如今,企業開始要求獲得可量化的投資回報。在 「Superhuman AI」 播客節目中,他表示:「優秀的產品必須有某種成功指標或評估標準作為支撐。在與部署 AI 的企業交流時,我多次發現了這一點。」對於評估 AI 工具的企業而言,其考量越來越聚焦於具體的生產力提升。

五個月前,Sonnet 4 的能力還需高價獲取,且代表行業前沿;如今,Haiku 4.5 能以三分之一的成本提供相近性能。短短五個月內,AI 性能保持穩定,價格降了原先的三分之二 。若這一趨勢持續(從 Anthropic 的發佈節奏,以及來自 OpenAI、谷歌的競爭壓力來看,這種可能性很大),那麼如今看似先進的 AI 能力,一年內可能會變得常規且廉價。AI 的基本經濟邏輯正以驚人速度發生轉變。

當前,Anthropic 估值達 1830 億美元。Anthropic 正緊追谷歌、OpenAI 等競爭對手 —— 其中 OpenAI 的估值已飆升至 5000 億美元。自今年 8 月推出 GPT-5 后,OpenAI 已簽署多項數十億美元規模的基礎設施協議,併發布了名為 Sora 的短視頻應用。

但 Jye Su 認為,「如今所有模型都處於迭代優化中,遺憾的是,即便在所有頭部廠商的產品之間,也沒有哪項特性真正脫穎而出。」

企業最終會選擇 Claude,還是 OpenAI、谷歌及其他不斷涌現的競爭對手提供的、能力日益強大的產品,目前仍是未知數。但 Anthropic 正明確押注:AI 的未來不屬於那些能打造出單一最強模型的企業,而屬於那些能以合適的價格、合適的速度提供合適智能,並讓所有人都能獲取的企業。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。