繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

K2 Thinking再炸場,楊植麟凌晨回答了21個問題

2025-11-11 18:28

文|鄧詠儀

編輯|蘇建勛

繼上周發佈K2 Thinking再度引起全球熱議后,很快,北京時間凌晨11月11日,月之暗面創始人楊植麟,以及合夥人周昕宇、吳育昕,在Reddit社區進行了長達數小時的線上AMA(Ask Me Anything)環節,解答新模型相關的問題。

這也是數位聯創第一次共同露面。

從高舉高打到轉向模型技術衝鋒,如今的Kimi不再投流,愈發安靜了。這次的新模型發佈,和三個月前K2發佈一樣走低調路線:不開線下正式發佈會,在社區直接發佈模型。

團隊主創選擇在Reddit、知乎上回答問題,也和Kimi現在的開源路線一脈相承——這些社區都是AI從業者、極客聚集的地方。

國外開發者們毫不吝嗇對Kimi K2的喜愛。AMA環節開始后,數十個問題很快填滿討論串,夾雜着對Kimi性價比、開源深度的稱讚,「絕對偉大的模型!」不少用户表示。

不少開發者還現場「催更」,希望Kimi團隊快點推出K2 Thinking更小體量的模型,部署在PC端,或者用於企業生產環境。

楊植麟也首次澄清了一系列傳聞——還會繼續開源嗎?K2 Thinking的460萬美金訓練成本是真的嗎?以及下一代K3模型的計劃,K2 Thinking關鍵的訓練細節。

△楊植麟迴應訓練成本問題

△以后會發布更大規模的閉源模型嗎?一個含蓄的回答:如果模型變得越來越危險的話:)

Kimi團隊也坦誠迴應了技術討論,甚至幽默地迴應了一下最近的AI泡沫——「我們也不知道(為什麼OpenAI燒錢哦),只有Sam知道,我們有自己的節奏。」月之暗面聯合創始人周昕宇表示。

△月之暗面聯合創始人周昕宇

新發布的K2 Thinking,是個高達1萬億參數,稀疏混合專家(MoE)架構模型——這是開源模型里相當大的體量。

在多個代表前沿能力的基準測試中,K2 Thinking確實取得了不錯的成績,尤其強在推理、任務執行上。

在以高難度著稱的測試集HLE(Humanity's Last Exam,有超過3000道高難度人類專家測試題)、BrowseComp(自主網頁瀏覽)等Agent榜單上,K2-Thinking的分數甚至超過了GPT-5。

K2 Thinking繼承了DeepSeek的架構設計,不過在此基礎上做了更多創新工作——參數放得更大,採用了INT4等新的量化手段。

從價格上看,K2-Thinking的成本優勢巨大,其百萬token輸出價格為2.5美元,僅為GPT-5(10美元)的四分之一,被很多人稱之為GPT-5和Claude Sonnet 4.5的「平替」。

「這是又一次DeepSeek式的輝煌時刻嗎?」K2 Thinking發佈后,Hugging Face聯合創始人Thomas Wolf在X上感慨。

最近幾個月,可以説是國產大模型的豐收季。各大廠商像是約好了接力開源,給了硅谷一點小小的震撼——9月,智譜發佈GLM-4.6,10月MiniMax發佈M2,加上這次的K2 Thinking,在全球榜單上上打得有來有回,好不熱鬧。

(我們也將此次AMA的完整問答整理在了文末)

話嘮的K2 Thinking,是爲了更好做任務

在AMA環節以及知乎等社區,不少開發者的第一個感覺是:K2 Thinking很話嘮。問它一個問題,思考時間很長,雖然便宜,但Token消耗巨大。

話嘮,其實是爲了一個最重要的目的:讓AI能夠幫人類完成更多任務。

從K2到K2 Thinking,一切設計都圍繞這一點開始:專注Agentic(智能體)能力,讓AI不只是聊天,而是能真正完成任務。

K2 Thinking高達萬億參數,但大體量並不是爲了炫技,而是希望能夠讓模型能夠囊括更多知識,有利於理解和執行任務,這相當於「腦子更聰明」;但K2 Think在實際運行時,激活參數控制在300億,也保證了回答問題和執行任務的速度足夠快。

長思維鏈是K2 Thinking的長板。據Kimi官方介紹,K2 Thinking能夠連續執行200-300次工具調用來解決複雜問題,保證任務連續性。

知乎上的一位答主@平凡就做了個實驗:給K2 Thinking一個博士級別的數學難題,僅用了23次工具調用,K2 Thinking就成功瞭解決問題。

K2 Thinking的具體執行過程是這樣的:

  • 第一步:模型首先理解問題,規劃出解決路徑
  • 第二步:調用搜索工具,查找相關的解法和理論
  • 第三步:分析搜索結果,判斷是否可用
  • 第四步至第N步:反覆調用Python代碼執行器,編寫代碼、進行計算、驗證假設

循環:在"思考-調用工具-驗證結果"的循環中不斷迭代,直到問題解決

不難看出,這是在模仿人類解決問題的過程,在「思考-調用工具-驗證結果」的循環中不斷迭代。

「步數」衡量的是模型的長程執行能力和耐力。步數越多,代表模型能處理的任務越複雜、越需要多輪迭代,並且在這個過程中,如何讓模型不容易跑偏最初的目標,這個是訓練的主要難點之一。

K2 Thinking的很多設計,核心目標是確保模型能夠完整處理複雜任務而不丟失信息。爲了達到「性能第一」這個目標,Kimi團隊的取捨在於,可以犧牲一點Token效率——話嘮一點也沒關係,但要保證任務完成。

對於前不久DeepSeek爆火的OCR路線研究(純像素輸入模型),團隊也談了談想法。「我個人覺得這條路走得有點重了,我更傾向於繼續在特徵空間(Feature Space)里下功夫,去找到更通用、並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。」月之暗面聯合創始人吳育昕説。

△月之暗面聯合創始人周昕宇

除了文本模型,Kimi團隊也表示,其他模態如視覺理解,正在努力當中,時間線可能還要往后推推。

Claude斷供后,國內創新速度反而更快了

無論是Kimi K2 Thinking的發佈,還是GLM、MiniMax M2,共同指向的一個趨勢是:在基礎設施如芯片受限、Claude斷供的情況下,國產大模型在算法創新上反而加快了進程。

關於訓練成本,楊植麟明確表示460萬美元「不是官方數字」,並表示很難量化培訓成本,因為主要部分是研究和實驗,這部分無法包含在一次性訓練成本當中。

可以肯定的是,K2 Thinking是在比較有限的條件下完成的。楊植麟表示,K2 Thinking包括在配備Infiniband的H800 GPU上進行訓練。相比美國,Kimi在GPU數量上處於劣勢,但把每張顯卡的性能都壓榨到了極致。

不止是Kimi,如今仍在基座模型上投入的國內團隊,都在算法層面找到了細分創新方向。

一個典型例子是,MiniMax和月之暗面面對「如何高效處理長上下文」這個問題,就給出了不一樣的選擇。

MiniMax的上一代模型M1,採用的一個關鍵模型極致是Linear Attention(線性注意力機制),但到了M2,又回退到了full attention(全注意力機制)。

兩者區別在於,MiniMax希望技術實現更穩定,在處理長鏈條信息時不要丟失關鍵內容。MiniMax在近期的技術博客就表示:在實際應用中發現,雖然Linear Attention能省算力,但對於多步推理的複雜Agent任務,傳統方法反而更可靠,他們更看重在當前工程體系下的穩定性。

Kimi則選擇了更激進的路徑。比如最近發佈的Kimi Linear,從更底層的硬件、架構層面,研發了KDA+MLA路線,即用3:1的比例,把KDA和MLA路線混合在一起。

傳統的Transformer架構,就像一個記憶力超羣但有點健忘的祕書——模型每個字都能記住,不會遺漏細節;但記的東西越多,模型的計算時間就以平方為單位增加。

而採用KDA架構之后,迫使模型學會「抓重點信息」。模型可以選擇性按照每個字來標註重要性、時效性等維度,選擇性忘掉一些細節。這種新架構在性能、速度、顯存佔用上,會有巨大優勢。

技術路線的選擇背后,也和各家如今商業目標的不同有關。

各家公司的打法開始出現明顯分化。Minimax M2的定位是性價比,推理速度快,多模態選擇豐富,希望吸引開發者在他們的平臺上構建豐富的應用生態;

Kimi則選擇繼續「爬山」,專注於把文本模型的能力做到極致,探索智能的上限。在這個目標之下,團隊選擇性能為先,讓Agent更可用,暫時不太考慮Token消耗效率。

而智譜GLM就搶佔了不少Claude斷供之后的市場,特別是在編程和推理場景,GLM-4.6從性能、效率和價格上,是一個相對全面的模型,讓企業能夠快速上手使用,很多應用廠商也可以直接套殼。

這些選擇沒有對錯之分,只是在當前環境下不同的生存策略。

實際上,中國開源模型的應用生態正在形成自己的優勢——許多海外開發者開始在中國的開源模型上構建應用,並積極提供反饋。可以預見的是,這場開源風暴,也會帶來應用的更多爆發。

附在AMA環節問答,經《智能涌現》編輯整理,有部分合並:

Q:460萬美元訓練成本是真的嗎?

Kimi:這不是一個官方數字。很難量化培訓成本,因為還有很大一部分工作是研究和實驗。

Q:是什麼導致你們這些瘋子(深情地説),選擇用一個相對未經測試的優化器,來訓練如此龐大的模型?

Kimi:Muon是一個未經其他人測試的優化器(Optimizer),但是在我們的實驗里,它通過了縮放定律驗證流程(Scaling Laws Ladder)。

我們對我們的研究體系(Research Stack)有信心,你可能會認為我們選擇Muon只是運氣好,但是選擇的背后是,有幾十個優化器和架構沒有(在實驗中)通過考驗。

Q:你們的訓練硬件配置是怎麼樣的?想了解一下你們的基礎設施和美國頂尖公司相比有什麼不同。

Kimi:我們用的是配備Infiniband的H800 GPU。雖然不如美國的高端GPU,我們在數量上也不佔優勢,但我們充分利用了每一張卡!

Q:在你們的預訓練中過程中,最重要的指標是什麼?消融架構更改的過程是怎麼樣的?在什麼尺度上進行測試,需要查看哪些指標,以確保模型表現良好?

以及,你們做了什麼,在預訓練前后,讓數據更有利於模型學習?有哪些指標可以預測數據是否對模型有益/有益,可以分享一些經驗嗎?

Kimi:最重要的指標是:損失(Loss)、基準測試(Benchmarks)和內部穩定性內部指標。

我們有一個在多個尺度上不斷發展的縮放定律驗證流程,模型消融環節必須在進行下一個之前通過小規模驗證。所有指標都很重要。

如果有任何意外,我們將暫停擴大模型規模,直到問題被理解和解決。

最重要的超參數是學習率(以及學習率調度器)。變量太多,所以最好在深入超參數搜索工作之前,先了解一下超參數的情況。

一個好的數據集,必須在訓練期間有一個好的基準趨勢。如果不是,那就好優化數據或找到一個更好的基準來顯示進展。

我想説的是,找到合適的數據集(data mixture)是一門藝術。因為數據集之間有太多的交互和共享模式。從你的直覺開始,但最終相信實驗。

Q:只做純文本模型,這是一個爲了達到SOTA(達到當前最好的性能)的取捨,還是説這是你們真就押注的長期方向?未來會考慮增加上下文窗口到1M嗎?

Kimi:要做視頻理解模型,獲取數據和訓練都需要時間,因此我們選擇首先發布文本模型。

我們以前做過1M上下文窗口,但是現在服務太貴了。我們將來會重新審視更長的上下文窗口。我們應該能夠在未來的版本中增加上下文長度。

Q:你們會發布適合MacBook的小型模型嗎?或者有沒有計劃製作32B或20B 模型?

Kimi:我們注意到了這個需求,但目前沒有對MacBook友好型模型的具體計劃。像Kimi Linear這樣的小模型很可愛,我們很可能會在未來發布更多作為研究演示。

Kimi-Linear-48B-A3B-Instruct是我們發佈的小模型的一個例子。將來我們很可能會訓練更多並添加更多功能。

Q:Kimi K2 Instruct是如何擁有如此獨特而富有洞察力的散文風格的?這主要是歸功於后訓練嗎?

Kimi:我們也喜歡它的寫作風格,它是我們后期訓練數據和評估的重要組成部分。

預訓練階段為模型打下了基礎,賦予了它相關的先驗知識和能力(priors),這就像是奠定了模型的「底藴」。

而后訓練階段在此基礎上增添了一些獨特的風味和個性(taste)。

很有意思的是,不同的強化學習(RL)策略或方法(RL recipes)確實能讓模型呈現出截然不同的風格和特點(different tastes)。

人們對這些細微之處有不同的喜好,模型的風格大體上也反映了我們的喜好。

Q:Kimi K2 Thinking雖然稱得上是目前最適合創意寫作的大模型,但仍有很大的提升空間。它在語言表達上存在不少瑕疵(slop issues)。

此外,儘管Kimi比其他模型審查更少、刻意的「正能量」也更少,但在處理殘酷的戰鬥場景或角色間充滿矛盾的真實對話時,輸出內容過於安全和套路化(GPT-isms)。給人的感覺不是真實的人類情感,而是一種「有毒的積極」(toxic positivity)。這些問題在未來版本中會得到解決嗎?

最后一個問題:未來會支持NSFW(成人內容)嗎?Grok允許生成NSFW內容,但文筆很差。OpenAI最近也宣佈會推出ChatGPT的成人版本。如果Kimi能大幅放寬審查,這是一個能發揮Kimi寫作優勢、搶佔市場的好機會。

Kimi:這是非常寶貴的反饋。

關於語言表達的瑕疵問題(slop),我們已經取得了一些進展,但這確實是所有大語言模型(LLM)長期面臨的挑戰。從技術上講,LLM的訓練過程會不斷強化數據中已有的模式,導致某些模式被過度放大,從而偏離了真實人類的偏好。但我們相信,這個問題是有解決方案的。

關於減少審查和刻意的正面引導,這應該是可以實現的,我們會進一步研究!

至於NSFW內容,我們需要先找到一種可靠的年齡驗證方法。我們可能需要根據不同場景對模型進行調整,並更新我們的服務條款來反映這些變化。這些都是非常棒的建議!

Q:會開發雙向對話模型嗎?

Kimi:我們沒有專門的雙向對話模型。不過,任何雙向注意力機制(Bidirectional Attention),都可以通過延長因果注意力模型(Causal Attention)的上下文長度,來實現類似的效果。

Q:K2 Thinking最大的技術挑戰是什麼?

Kimi:一個挑戰是支持交錯的"思考-工具-思考-工具"模式。這在LLM中是一種相對較新的挑戰,需要大量的工作才能正確運行。

Q:K2可以做到200-300步的穩定工具調用,這是如何實現的?

Kimi:我們使用端到端智能體強化學習(End-to-end Agent RL)訓練K2 Thinking,這導致了數百個步驟的工具調用以及包括檢索(Retrieval)在內的中間步驟的更好性能。

Q:如何保障長鏈推理的穩定性?為什麼Kimi K2思維可以在單次推理中,實現如此長的推理時間和推理鏈?GPT5 Pro使用代理來延長推理時間,但推理效果仍然不如K2的單次長推理。將來會進一步考慮提高基礎模型的推理時間嗎?

Kimi:這需要大量的工程工作才能正確實現。當數據集組合時,我們可以更好地進行觀察泛化(Generalization)。

推理時間取決於API吞吐量,而Token的數量取決於如何訓練模型。我們訓練K2思維的方式,傾向於用相對更多的Token來思考,以達到最佳結果。

我們的K2 Thinking Turbo的API應該更快。此外,K2思維本身就是採用的INT4,這進一步加快了推理過程。

Q:想請教一下,你們覺得從int4到fp4算是一次實質性的提升嗎?還是説int4的效果其實已經足夠好了?

Kimi:我們選擇int4,主要是爲了更好地兼容非Blackwell架構的GPU,同時也能直接用上社區現有的Marlin int4推理內核(https://github.com/IST-DASLab/marlin)。

對這個話題,我們團隊的工程師有一篇更詳細的分析,可以參考(中文):https://www.zhihu.com/question/654759544/answer/3493279960

Q:以后的K3,會有什麼新突破?

Kimi:我們很樂意在K3中加入重大架構更改並開發新功能。KDA(Kernel-Attention Dual Architecture)是我們最新的實驗架構,相關的想法很可能會在K3中使用。

Q:你們有計劃推出像AI瀏覽器這樣的產品嗎?

Kimi:我們目前的重心還是在模型訓練上,但會持續將我們的最新能力更新到kimi.com 網站上。

我們認為,要做好模型,並不需要再去做一個瀏覽器「殼」(Chromium Wrapper)

Q:會計劃發佈更大規模的閉源模型嗎?

Kimi:如果模型變得越來越危險的話(if it gets too dangerous):)

Q:為什麼選擇開源策略?Kimi會開源安全對齊技術棧嗎?

Kimi:同意。發佈安全對齊(Safety Alignment)技術棧,將惠及更多從事開放模型進一步微調(Fine-tuning)的人。我們可能還需要更多機制,確保這些微調工作遵循特定的安全協議。

我們擁抱開源,因為我們相信AGI(通用人工智能,Artificial General Intelligence)應該是一種導致團結而不是分裂的追求。

Q:如何看待與OpenAI等巨頭的競爭?為什麼OpenAI這麼燒錢?

Kimi:不知道,可能只有Sam知道哦,我們有自己的方式和節奏。我們的使命是「尋求從能源到智能的最佳轉換」。在可預見的未來,我們依舊將專注於提高智能。

Q:會提升多語言能力嗎?

Kimi:我們很想教Kimi説更多的語言,但我們在不同語言方面的帶寬和知識有限。也許這也是開源社區可以提供幫助的地方,例如在數據採集方面。

Q:你們如何看待最近從一些閉源模型(Gemini、GPT)過度讚美用户的趨勢?Kimi會試圖阻止這種行為嗎?

Kimi:模型具有不同的個性化偏好是好的。我們相信,未來模型擁有更多元化的風格與能力將成為一種趨勢。

Q:你們是「AGI信徒」嗎?預測一下AGI什麼時候能實現?

Kimi:AGI這件事很難定義,但大家已經能感覺到那個範兒了,未來會有更多更強大的模型。

封面來源|AI生成

👇🏻 掃碼加入「智湧AI交流羣」👇🏻

歡迎交流

本文來自微信公眾號「智能涌現」,作者:鄧詠儀,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。