「像把大象塞進冰箱一樣困難」，端側大模型是噱頭還是未來？

2025-10-14 12:03

完整直播回放可查看：https://www.infoq.cn/video/THRB0qAfk8oUojVMsd4J

以下內容基於直播速記整理，經 InfoQ 刪減。

端側大模型如何落地？

朱世艾：端側大模型目前的發展現狀如何，有哪些實實在在的進展？

徐夢煒：端側大模型是指將大模型的運行（主要是推理）直接部署在終端設備上，而與之相對的是目前主流的閉源 SOTA 模型通常運行在雲端的大型 GPU 集羣或數據中心，通過遠程請求完成推理，這一過程通常稱為 serving。「端側」的範圍很廣，從算力較弱的僅有低性能 CPU 的 IoT 設備，到算力中等的智能手機，再到機器人和 PC，只要不是放在遠端數據中心或邊緣雲的設備，都可以稱為端側 AI。

早在二三年前我們團隊開始研究端側大模型時，很多人覺得「模型放在端上」就不算「大」。實際上，大模型並沒有統一標準，我個人認為，只要是基於 decoder-only 的、Transformer（包括 attention 或更輕量的 Linear attention），參數規模超過百兆的自迴歸模型，都可稱為大模型。換句話説，只要它是 foundation model，能處理多種任務，經過簡單微調即可適應不同下游任務，就可以稱為大模型。

為什麼要在端側部署大模型？雖然調用雲端 API 很方便，但端側部署有幾方面優勢，與傳統端側 AI 類似。首先是隱私。在大模型時代，模型可能利用端上產生的幾乎所有數據，包括錄音、文本、輸入、屏幕點擊等，因此隱私問題比以往更為突出。其次，端側推理可以擺脫網絡依賴，提升可用性，即使離線也能運行。同時，它避免了雲端 serving 的網絡往返延迟（RTT）和批量調度帶來的時延問題。如果在端上優化得當，整體延迟可顯著降低。最后，從企業角度看，將計算分攤到用户終端，可以減少維護超大 GPU 集羣的成本，這也是強有力的商業動機。

在學術界，端側大模型並不是一個單一領域，而是一個場景下的多學科技術。研究者大致分為三類：一類是算法方向，關注大模型輕量化、剪枝、蒸餾及新架構設計；另一類是軟件方向，涉及系統軟件、高性能計算、移動或邊緣計算，以及嵌入式系統；第三類是硬件體系結構方向，關注電路與加速器設計。在雲端領域競爭英偉達很難，但在端側研究中機會更多。

章武：我從幾個維度談談將雲端大模型遷移到端側面臨的挑戰。首先是內存問題，雲端內存幾乎可以無限擴展，而手機等終端較大佔比的是 8~12GB 內存配置，因此雲側的 BF16 的推理精度在端上無法繼承的，需要通過極致量化與壓縮來適配有限的內存。其次是精度對齊，雲端模型通常無需量化，而端側必須將 FP32 模型壓縮到 4bit 甚至更低，不同廠商對量化算法的支持差異較大，帶來了精度對齊難題。此外還有開發適配的成本問題，在雲端只需將 PyTorch 工程做部分推理部署優化即可快速上線，而端側幾乎要從零開始，廠商需開發自己的高性能算子來構建推理能力，開發成本遠高於雲端。

針對這些問題，華為的 CANN 工具鏈為開發者提供了一套快速在端側部署 AI 模型的解決方案。首先是量化與內存優化，CANN 工具鏈提供了 NPU 友好的低比特量化算法，顯著降低模型內存佔用，使大模型能夠運行在手機等終端上。其次是自定義算子能力，由於各廠商的量化算法不同，手機廠商無法逐一適配。CANN 工具鏈支持 Ascend C 自定義算子開發，例如我們與支付寶合作時，對方希望在 NPU 量化精度能與 CPU 的實現精度一致，支付寶團隊通過 Ascend C 實現 NPU 版本的自有算法的 QuantMatmul，最終確保精度一致。同時，Ascend C 算子端雲統一，支持一次開發多端部署，大大提高了后續跨平臺移植的開發效率。最后是模型泛化支持。CANN 工具鏈已針對業界主流開源模型（如通義、千問、LLaMA、ChatGLM 等）提供適配方案，並持續優化多模態和 MoE 等大模型場景。

朱世艾：支付寶作為互聯網大廠，在實際應用中關注三大優勢：實時性、隱私和成本。

首先，在大模型時代，語音助手、流式識別、實時翻譯等交互場景對時延要求越來越高，端側推理可避免網絡傳輸與雲端計算開銷，顯著提升響應速度。其次，支付寶端側 AI 的發展源於「新春五福」大促活動帶來的流量峰值，當時單靠雲端負載難以支撐，這促生了 X 引擎，也奠定了端側 AI 在支付寶的地位。如今進入大模型時代，計算壓力更大，端側 AI 能有效分擔峰值流量和計算成本。第三，個性化推薦和基於用户行為的實時決策常涉及敏感數據。如果在端側實現這些算法，可以降低數據風險，同時提升用户體驗。

因此，無論在傳統 AI 還是大模型時代，實時性、隱私和成本優勢都奠定了端側 AI 的發展基礎。儘管與過去相比，大模型的規模和算力需求使端側落地更具挑戰，但隨着生成式 AI 的發展，端側 AI 也應沿着這一趨勢不斷突破技術瓶頸。

朱世艾：從「可用」到「好用」：端側大模型落地過程中最大的挑戰是什麼？當前究竟被哪些挑戰給‘卡住了脖子’？

章武：「將大模型塞進手機里的過程」與「將大象塞進冰箱里」一樣困難。我們可以從以下幾個維度來談一談大模型入端的技術挑戰：

放的下：當前主流的旗艦手機還處在 8~12GB 起步的階段，所以大模型入端首要解決的問題是內存佔用問題。在有限的應用內存增量（500MB 左右）和必要大模型參數量（0.5~1B），我們必須要提供一些內存瘦身技術將模型儘可能壓縮在可控的範圍內，當前 CANN 工具鏈提供了低 bit 量化，Embeding In Flash 等方案，將模型的實際內存佔用控制在參數量內存的 50% 以下。
跑的快：端側 AI 的核心價值在於隱私保護和低時延，在大模型場景，爲了在端側為開發者提供快速的大模型響應體驗，我們 CANN 提供的親和量化算法提供了混合 bit 量化能力可以充分利用好 NPU 的算力，同時 CANN 工具鏈也提供了 Flash Attention、Prompt Cache 等技術進一步優化端側推理耗時，1B 開源生態左右的模型當前可以做到 1000token/1s 的快速響應體驗。
功能泛化：與雲側統一的 python 生態不同，端側 AI 當前軟件生態沒有統一，開發者將大模型從雲到端的遷移過程，要完成從 0 起步的端側 AI 適配過程，調試工作量較大。CANN 工具鏈面向業界主流的開源模型做了功能的泛化，當前支持 qwen、 llama、chatglm 等系列開源大模型等，幫助開發者快速完成從 0 到 1 的過程，同時我們也在積極的適配和優化多模態、全模態、MOE 等新型的大模型技術。我們提供的 ASC 自定義算子編程能力，開發者可以根據業務需要，自行的調整算子計算優化策略。后續我們會逐步地開放大模型對接解決方案，提供對應的模型樣例，指導手冊，適配代碼 demo 等，幫助開發者快速的在手機側集成大模型能力。

徐夢煒：大模型與操作系統的融合是一個有趣且前景廣闊的話題。雖然多數技術人員認可這一趨勢，但其進展仍然緩慢，目前缺乏成熟成果，多是對未來的願景設想。我們認為，大模型將逐步下沉為操作系統的系統級服務，隨着其在終端和智能硬件中的作用愈發重要，操作系統也需要適應這種變化。

未來，應用可能逐漸演化為 agent，底層調用大模型，而大模型的功耗與內存佔用可能達到 90% 甚至更高，這意味着操作系統需重新定義資源管理。例如，大模型的 KV cache 是否應與 APP 內存採用同一管理方式？若採用統一機制，可能導致 recompute 開銷巨大，且系統現有的 Low Memory Killer 策略不適用於這種場景。

資源調度也是挑戰。目前 NPU 架構相對簡單，缺乏類似 CPU 的靈活調度機制。若未來多應用同時使用 NPU，如何實現隔離、搶佔和調度將是新問題。學術界剛開始研究這些課題，而工業界目前更關注如何先把推理性能做好。不過，隨着端側對低功耗和高效率的要求，大模型高度通用的特性將使 NPU 的價值顯著提升。

傳統 CNN 時代，NPU 因碎片化等問題未被充分利用，許多任務在 GPU 或 CPU 上即可滿足性能。但在大模型時代，NPU 的重要性將顯著增強。此外，手機廠商與應用廠商的角色與合作模式也會影響生態發展，進而影響技術研究方向與成果轉化。

朱世艾：從應用角度看，端側模型在實際業務中面臨的挑戰，源於其能力與預期之間的差距。端側的能力必須限定在「可控範圍」內完成任務，主要指帶參考的推理任務，例如總結摘要、翻譯、自動語音識別，以及 function call、MCP 等工具調用。未來要解決這些問題，仍需要「端—雲結合」的方案，這也將成為重要的技術方向。

從 APP 端視角看，我們還面臨一些終端廠商所沒有的特殊問題，其中之一是模型的部署與下發。首先，APP 的安裝包通常不能太大。然而，即便對模型進行了低比特量化，規模仍可能達到幾百兆。如果要將這種體量的模型下發到手機端，即使不考慮其他 APP 的佔用，僅就支付寶 APP 本身而言，內存壓力也不容忽視。能否在保證用户體驗的前提下，實現模型的即時觸達、加載和初始化，是一項重要挑戰。

對此，支付寶方面正嘗試多種方案。首先，與多家終端廠商的思路一致，我們優先通過更低比特量化，儘量縮小模型尺寸。其次，我們將模型參數規模聚焦在 0.5~1.5 億區間。同時，在終端框架和工程架構上，原本各業務獨立調用推理引擎，如今逐步演進為統一的大模型運行時管理框架，類似於「端側 AI 容器」。

朱世艾：針對這些挑戰，目前業界有哪些破局思路和技術方案？請分享一些你們正在使用的、或認為最有潛力的技術方案和實戰經驗。

徐夢煒：手機及各類終端的內存容量非常有限，短期內難以實現大幅提升，這會制約端側大模型的規模。但我認為，我們可以借鑑計算機「金字塔式」存儲結構的理念，通過更精細的存儲管理來突破限制。計算機從緩存到內存、外存形成分層體系，是基於時間和空間的局部性因此緩存技術纔有效。

大模型也存在類似的局部性特徵：部分參數被頻繁激活，而另一些參數則很少使用。這可能來自訓練時的 MoE 結構，其中 attention 參數幾乎每次都會激活，而多數 expert 的調用頻率較低。即便不是按 MoE 方式訓練，標準 Transformer 的激活也呈現冷熱分佈，有些參數經常活躍，有些則很少。研究還表明，可以通過后處理增強這種稀疏性。

這種稀疏性可以與存儲分層結合：把頻繁激活的參數常駐內存，而不常用的參數按需加載。如果冷參數數量足夠少，或 IO 速度足夠快，就能與計算重疊，從而幾乎不增加時間開銷。

這一思想不僅適用於端側，在雲端或更大型設備上，主存與顯存之間的交換也是常用技術。端上利用稀疏性同樣重要，這是擴大端側可運行模型規模的關鍵途徑。量化當然必不可少，但其上限約在 2–4 比特，而稀疏加載仍有潛力，讓更大的模型在有限算力上運行。MoE 結構因算力需求較低，天然適合端上芯片。

我們團隊一直嘗試利用模型稀疏性與存儲結構相結合，提升在 NPU 上高效部署模型的能力。雖然看似直接，但實際上在不同 NPU 上優化部署仍然是難題。去年我們發表了一篇 SDOS 論文，介紹在商用手機上實現端到端 NPU 推理的工作，當時使用的是高通芯片。今年也在研究華為平臺。高通 2023 年發佈的新 SoC 宣稱是為生成式 AI 設計，但我們發現其與 Transformer 模型仍存在較大差距，例如缺乏對動態 shape、group-level 量化等的支持。傳統 CNN 跑得很好，但大模型在硬件接口層仍有空白。

因此，我們從算法與系統協同設計角度優化，雖不能完全解決，但能緩解部分瓶頸並提升效率。然而，即便經過各種優化，decode 階段仍常受內存帶寬限制，尚未實現理想加速。可以結合投機計算等手段，但系統複雜性也隨之增加。總的來説，要想充分榨取硬件潛力，需要算法、系統與硬件的極致協同設計。這是我們在端側模型部署上關注的兩個關鍵方向。

章武：我想重點談性能優化問題，因為端側與雲端的技術路徑差異明顯。雲端算力充足，優化的核心是通過多用户會話實現 Prefill 和 Decode 的分離推理，最大化算力和帶寬利用率。而端側多為單會話場景，Prefill 階段算力受限，Decode 階段則受帶寬限制，兩者需採用不同策略。

在 Prefill 階段，我們通過減少計算量來緩解算力瓶頸。例如利用 prompt cache 緩存通用 token，避免重複推理；同時結合混合低比特量化、激活量化進一步發揮端側算力。這些 training-free 技術無需重新訓練模型，只需藉助工具鏈簡單調優，即可在端上顯著提速。此外，部分研究提出基於訓練的方法，如用小模型壓縮輸入 token 數量，進一步縮短 Prefill 推理時間。

對於 Decode 階段的帶寬瓶頸，目前業界的主要方案有兩類：一是更低比特的量化，減小權重體積，提高帶寬利用率；二是升級硬件，如使用更高規格的 DDR 內存。在固定硬件下，常見方法包括 MoE、投機推理，以及近期熱門的 Diffusion LLM 技術，它們將帶寬瓶頸轉化為算力瓶頸，從而加速 Decode。但這些方法通常與模型訓練密切相關，需要廠商與互聯網企業合作，而非單靠工具鏈即可完成，我們也期待出現類似 training-free 的技術來解決帶寬問題。

最后是異構架構。目前多 IP 協同往往帶來額外調度開銷，而大模型通常包含上千個算子，層間頻繁切換會顯著增加耗可以時。因此，現階段異構並不能完全提升推理性能，但未來可能出現專門為大模型設計的新型推理架構，這仍是值得業界探索的方向。

朱世艾：我們與華為等廠商在早期合作時，就選擇了低比特量化路線，這是與許多通用方案的顯著差異。原因在於應用層面的大模型面臨兩大瓶頸：一是模型物理尺寸過大，影響下載；二是不同手機內存差異大且整體有限，約束了模型運行。因此，我們一開始便採用 2 比特量化，而非從 4 或 8 比特起步。

2 比特量化涉及多種方案，如線性量化、基於碼本的量化等。在探索過程中，我們將推理實現與壓縮算法深度融合，既關注模型尺寸和內存佔用，又平衡精度損失與實現友好性。例如，針對 2 比特較大的精度損失，我們選用更小的 block size（如 64，甚至 32），而不是常見的 128 或更大值。但更小塊也會增加量化參數存儲開銷，因此我們引入了二級量化（by-level count）來壓縮 scale，減少模型物理體積和加載內存。

在量化策略上，我們嘗試了 PTQ、training-free 和 QAT 等方案。PTQ 對 4 或 8 比特效果較好，但在 2 比特上表現有限，因此我們最終主要採用 QAT，並將其推廣至多模態模型和 ASR 模型。

關於 NPU 的使用，雖然手機每年迭代，但用户更換設備的周期較長，許多存量手機 SoC 並非為大模型推理設計，也缺乏足夠的工具鏈支持。因此我們採用異構推理方案，充分利用 CPU、GPU 和 NPU 的優勢。CPU 具備良好的可編程性，GPU 在浮點計算精度上表現出色，而 NPU 則在算力密度和功耗方面更優。我們基於自研量化算法，針對不同 SoC 進行優化。雖然部署複雜度有所增加，但收益明顯。

另一方面，直接在模型計算圖層面切分任務並不容易，收益可能抵消調度成本，因此我們也探索如 VLM 模型中將前置 ViT 子圖下放到 NPU，以減少調度並充分利用硬件計算資源。這些工作需要與硬件生態密切合作，才能將異構方案真正落地到端側設備。

觀眾：IoT 採集部分有端側的案例嗎？

朱世艾：車機、智能眼鏡和機器人等設備，其實都屬於「端側」範疇。但今天的討論主題更多聚焦在手機端。當前已有不少 IoT 案例，如各類新勢力品牌的汽車，其車載終端往往包含交互場景，許多計算都基於端側完成；機器人則更典型，它們需要實時動作反饋，因此端側大模型推理是必不可少的。不過，這些設備的芯片往往可以採用更強大的設計，技術路線與手機或消費電子端側推理存在顯著差異。

端側大模型的應用與商業化

朱世艾：哪些場景最有希望率先跑通端側大模型？商業模式可能是什麼樣？

章武：從技術角度看，我們的工具鏈已適配業界主流的第三方模型，並提供詳細的部署指導，大幅降低了中小開發者的研發成本。我們的開發網站不僅包含這些大模型樣例，還提供計算機視覺、音頻、自然語言處理、AIGC 等領域的小模型庫，幫助開發者快速找到適合其場景的模型。

這些模型大多經過端側調優或選型優化，開發者在此基礎上訓練模型時，只要滿足精度要求，就能自然解決端側部署和性能適配問題。其次，工具鏈支持 Ascend C 自定義算子功能，開發者可在端側調試自定義算子，並同步在雲側使用，實現一次開發多端遷移，從而顯著提升 AI 研發效率。

此外，工具鏈還提供豐富的算子和算力調優工具，開發者可藉助 Profiling 工具分析性能，調整模型結構，剔除端側不適用的算子，替換為更優實現，從而快速設計出端側友好的模型結構，兼顧部署性能與效果。

徐夢煒：在數字世界，我們近期重點研究 Computer Use Agent，包括 GUI Agent 和 Function Code Agent。這類 Agent 非常個性化，類似私人祕書，會訪問大量本地數據或操作手機屏幕，因此隱私價值高，用户往往不願把這些數據上傳雲端。儘管目前大家仍關注精度，需要使用最新的大模型，但我認為未來落地時，端側將是主要方向。在物理世界，具身智能同樣需要端側大模型。一方面是隱私因素，例如設備採集的視頻流用户不希望上傳雲端；另一方面是成本與可用性問題，如無人機在無網絡環境下仍需自主決策。

朱世艾：從落地角度看，自去年起，端側大模型已成為商業化技術方案，終端側運行已基本成熟。華為、vivo、榮耀、蘋果等廠商的新旗艦手機均具備端側大模型能力，可處理文檔、本地搜索、簡單問答等任務，還支持相機算法優化和離線 ASR 等場景。Apple Intelligence 也提供了較完整的端側能力，供開發者和上層應用使用。然而，大規模應用仍有距離，目前主要集中在 APP 中，如支付寶等複雜業務場景。

在 APP 中應用大模型，需要關注機型覆蓋和算力差異。我們不僅要跟進手機迭代速度，還需在技術和算法上優化舊設備的推理能力，這是當前投入較多的方向。今年我們計劃在部分小場景做 POC，但要將其發展爲終端基礎設施，可能還需一到兩年。

另一方面，APP 的產品設計對大模型的精度和能力依賴較強，純端側難以支撐如支付寶這類複雜場景，因此我們與內部雲側方案合作，同時也與終端廠商和芯片公司探索聯合落地。在場景設計中，GUI Agent 是重點方向。對於以 GUI 頁面交互為主的 APP，如何利用端側大模型更便捷地服務用户，是我們端雲協同技術方案的核心議題之一。這一方向涉及實時交互、隱私與安全，是端雲結合中最容易形成實際應用和商業價值的領域，因此近期我們在這一技術方向上加大了投入。

展望未來

朱世艾：未來 3-5 年，端側智能的世界會變成什麼樣？端 / 邊 / 雲會如何分工協同？終端設備的形態是否會因大模型而改變？

章武：隨着大模型的出現，用户越來越希望在手機中擁有一個「全能祕書」，即 AI Agent，能夠隨時處理各種事務。這一場景對端側的本地算力提出了很高要求。然而，由於端側硬件的發展仍有限，我們認為「端雲協同」將成為必然趨勢。端側 AI 的優勢在於隱私保護和快速響應，雲端 AI 則擅長利用大數據和強大算力。結合兩者特點，未來大模型將在多種場景中深度賦能，端雲協同無疑是理想方案。

端側 AI 可作為「神經末梢」，負責大模型的部分 token 計算，以及採集用户情感、偏好與隱私相關數據，經過整合后交由雲端「大腦」完成推理決策。雲端運行完整的大模型，端側運行輕量模型，實現從信息採集到推理決策再到快速響應的完整閉環。這種分工既能保證端側的隱私與實時性，又能發揮雲端在大數據和算力方面的優勢。

針對端雲協同的未來佈局，華為提出了一些生態戰略。我們計劃在年底前完成「看」框架的開源與開放，通過定義統一的計算架構和開放的編程工具鏈，讓開發者可以在端或雲中靈活編寫與調試算子，並在多端同步部署 AI 推理能力，從而顯著提升端雲分工下的應用開發效率。

徐夢煒：未來端和雲必然都會運行大模型，但分工不同。雲端大模型更接近 AGI，致力於拓展人類知識邊界，例如解決數學難題或研究蛋白質結構；端側則更貼近生產力場景，處理與用户本地數據或上下文相關、需要個性化和隱私保護的任務。高通的白皮書中提到「未來的 AI 是混合式的」，我認為這一定會發生在端與雲上。

至於如何協同，最簡單也可能最合理的方式是「簡單任務在端上處理，複雜任務交由雲端」。但這並不容易，因為我們需要判斷端側模型能否正確完成任務，或何時應交由雲端處理，這與「幻覺」檢測及其邊界問題密切相關。因此，端雲協同是一個重要課題，值得學術界和工業界持續探索與研究。

朱世艾：大模型的建模方式和業務使用方式的發展，使過去複雜的業務邏輯得到簡化。如今，將 AI 融入業務已無需過於繁重的產品設計，交互方式也逐漸統一，例如流式輸入輸出。產品設計中，我們常首先考慮「大模型能否勝任該功能」。端側仍是智能化能力的主要入口，這一定位在未來三到五年不會改變。同時，端不僅是入口，還可能成為計算節點，承擔部分智能化能力。

端的形態已不限於手機，還包括車機、機器人、智能眼鏡和具身智能設備等，它們都是智能入口。部分設備如眼鏡，因功耗、尺寸與佩戴舒適性限制，算力較弱；但其他設備算力正日益增強，未來端將成為應用中的重要計算節點。

端與邊緣的協同仍是複雜問題，既與任務複雜度相關，也取決於環境變化。例如，機器人在無網絡環境中執行排險任務，或手機在高鐵、弱網等環境下，如何保持服務連續性與體驗質量？這都需要端側介入，且方式因應用場景不同而異，尚無統一範式。目前我們希望將部分功能獨立部署在端，如離線 ASR 關鍵詞識別或對話中的關鍵問題識別，同時將簡單任務交由端處理。

當然，端側決策需確保足夠準確，而無法面面俱到的任務可交給雲側處理。這是我們正在探索的多種端雲協作方式之一，目標是在保證端側決策可靠性的同時，讓雲端補充其不足，從而實現更完整高效的系統。

觀眾：端側大模型應該從哪個方面入手學習？

章武：端側大模型的核心在於端側推理。針對這一方向，我建議首先要讀懂 Transformer 庫的推理源碼，這是理解端側推理的根本。同時，可以從 llama.cpp 入手，它是一個面向 CPU、GPU 等多種硬件進行入端適配的優秀開源項目，通過參與其中，可以快速瞭解端側推理模式，尤其是端側優化的實現。

通過這些學習，大家能更快理解端側推理與雲側推理的差異。LLaMA CPP 還提供 2~4bit 等多種量化方案，包括 group 量化，並在設計文檔和代碼中都有詳細實現，同時適配多種硬件平臺，這些內容有助於深入理解端側量化的重要性。

徐夢煒：從不同角度看端側大模型也很有價值。門檻其實很高：首先要精通算法，例如 Attention 的數學形式必須熟悉；其次要看得懂 Transformer 庫的底層源碼，理解其中的數學原理，這是基本功。此外，作為系統方向，還需掌握底層 kernel 的編寫，與硬件和高性能優化相關，並能在複雜系統架構中修改代碼和調試。

剛纔提到的 LLaMA CPP 是經典項目。如果覺得它代碼量大、閲讀門檻高，可以嘗試我們開源的簡化版本 MLLM，在 GitHub 搜索即可找到。雖然只有約一千個 star，只是 LLaMA CPP 的零頭，但完全國產、代碼簡潔，便於學習，有問題也歡迎交流。

朱世艾：相較去年，今年從基礎模型研發到推理引擎和量化算法，開源社區已更加繁榮。如果大家想投身這一方向，這是非常值得深耕的領域，它能讓你全面瞭解模型從算法到底層實現的細節。此外，端側與雲側技術並非完全割裂，儘管場景和硬件形態不同，很多技術理念是相通的。對端側有較深入的理解，也便於轉向雲側或其他相關賽道。

朱世艾：對於想投身於此的開發者和初創公司，現在的機會點在哪里？是做模型、做應用、還是做工具？

徐夢煒：大模型更像是一項具體技術，而非完整產品。如果想用它創業，當然有成功案例，尤其在硅谷，資本更看重技術併購，所以只要技術足夠優秀就有機會。但在國內，軟件創業並不容易，因此更適合將大模型與具體應用場景結合。例如，如果我在大模型上有積累，是否可以考慮把它與製造業、機器人或其他領域相結合？當然，這又涉及如何訓練模型、優化推理等一系列問題。

如果真正想創業、尋求更高上限，僅依賴大模型本身會比較困難。研發大模型當然很重要，但要獨立支撐一家公司的發展，還需結合實際場景，如應用開發、智能 Agent、無人機或其他深度垂直領域。

朱世艾：無論是做模型、應用還是基礎工具，都各有機會。但對普通開發者而言，做應用更容易取得成果。目前生態已相當繁榮，許多開源資源可以直接使用，降低了門檻。此外，許多 OEM 廠商和操作系統未來可能會開放端側模型推理的 API 或工具鏈，開發者可以基於這些能力發揮創意，探索更多有趣的應用。這不僅有助於生態繁榮，也更容易取得成功。

活動推薦

10 月 23-25 日 QCon 上海站即將開幕，3 天沉浸式學習，100+ 工程實戰案例，直面一線的挑戰與解法。大會將聚焦 Agentic AI、具身智能、強化學習框架、端側大模型實踐、多智能體協作等熱門話題，以及 AI 時代下的軟件研發、可觀測、開源等技術實踐。一票難求，立即掃碼預佔席位！

「像把大象塞進冰箱一樣困難」，端側大模型是噱頭還是未來？

推薦文章

美財長貝特森：對中國加徵關税的情況不一定會發生！中方旋即迴應

華盛早報 | 凌晨突發！鮑威爾敞開本月降息大門；英偉達股價重挫逾4%，AMD獲甲骨文5萬枚AI芯片訂單

美股機會日報 | 重磅發聲！美聯儲主席鮑威爾今夜將發表重要講話；稀土概念股CRML飆升超34%

新股暗盤 | 軒竹生物-B一度漲超201%！中籤一手賬面浮盈11710港元

打新攻略 | 中籤就賺80%？「賺錢效應」徹底爆發，這8只新股正在排隊IPO，如何集中精力「吃大肉」？

黃金暴漲只是序幕？「貨幣貶值」大辯論席捲全球市場

納微半導體(NVTS.US)股價狂飆！功率器件研發取得進展 將賦能英偉達(NVDA.US)800V電力架構

華爾街最新多頭力挺特斯拉(TSLA.US)「必持股」：自動駕駛與人形機器人「星辰大海」廣闊

納微半導體(NVTS.US)股價狂飆！功率器件研發取得進展將賦能英偉達(NVDA.US)800V電力架構