熱門資訊> 正文
2025-10-14 12:03
完整直播回放可查看:https://www.infoq.cn/video/THRB0qAfk8oUojVMsd4J
以下內容基於直播速記整理,經 InfoQ 刪減。
端側大模型如何落地?
朱世艾:端側大模型目前的發展現狀如何,有哪些實實在在的進展?
徐夢煒: 端側大模型是指將大模型的運行(主要是推理)直接部署在終端設備上,而與之相對的是目前主流的閉源 SOTA 模型通常運行在雲端的大型 GPU 集羣或數據中心,通過遠程請求完成推理,這一過程通常稱為 serving。「端側」的範圍很廣,從算力較弱的僅有低性能 CPU 的 IoT 設備,到算力中等的智能手機,再到機器人和 PC,只要不是放在遠端數據中心或邊緣雲的設備,都可以稱為端側 AI。
早在二三年前我們團隊開始研究端側大模型時,很多人覺得「模型放在端上」就不算「大」。實際上,大模型並沒有統一標準,我個人認為,只要是基於 decoder-only 的、Transformer(包括 attention 或更輕量的 Linear attention),參數規模超過百兆的自迴歸模型,都可稱為大模型。換句話説,只要它是 foundation model,能處理多種任務,經過簡單微調即可適應不同下游任務,就可以稱為大模型。
為什麼要在端側部署大模型?雖然調用雲端 API 很方便,但端側部署有幾方面優勢,與傳統端側 AI 類似。首先是隱私。在大模型時代,模型可能利用端上產生的幾乎所有數據,包括錄音、文本、輸入、屏幕點擊等,因此隱私問題比以往更為突出。其次,端側推理可以擺脫網絡依賴,提升可用性,即使離線也能運行。同時,它避免了雲端 serving 的網絡往返延迟(RTT)和批量調度帶來的時延問題。如果在端上優化得當,整體延迟可顯著降低。最后,從企業角度看,將計算分攤到用户終端,可以減少維護超大 GPU 集羣的成本,這也是強有力的商業動機。
在學術界,端側大模型並不是一個單一領域,而是一個場景下的多學科技術。研究者大致分為三類:一類是算法方向,關注大模型輕量化、剪枝、蒸餾及新架構設計;另一類是軟件方向,涉及系統軟件、高性能計算、移動或邊緣計算,以及嵌入式系統;第三類是硬件體系結構方向,關注電路與加速器設計。在雲端領域競爭英偉達很難,但在端側研究中機會更多。
章武: 我從幾個維度談談將雲端大模型遷移到端側面臨的挑戰。首先是內存問題,雲端內存幾乎可以無限擴展,而手機等終端較大佔比的是 8~12GB 內存配置,因此雲側的 BF16 的推理精度在端上無法繼承的,需要通過極致量化與壓縮來適配有限的內存。其次是精度對齊,雲端模型通常無需量化,而端側必須將 FP32 模型壓縮到 4bit 甚至更低,不同廠商對量化算法的支持差異較大,帶來了精度對齊難題。此外還有開發適配的成本問題,在雲端只需將 PyTorch 工程做部分推理部署優化即可快速上線,而端側幾乎要從零開始,廠商需開發自己的高性能算子來構建推理能力,開發成本遠高於雲端。
針對這些問題,華為的 CANN 工具鏈為開發者提供了一套快速在端側部署 AI 模型的解決方案。首先是量化與內存優化,CANN 工具鏈提供了 NPU 友好的低比特量化算法,顯著降低模型內存佔用,使大模型能夠運行在手機等終端上。其次是自定義算子能力,由於各廠商的量化算法不同,手機廠商無法逐一適配。CANN 工具鏈支持 Ascend C 自定義算子開發,例如我們與支付寶合作時,對方希望在 NPU 量化精度能與 CPU 的實現精度一致,支付寶團隊通過 Ascend C 實現 NPU 版本的自有算法的 QuantMatmul,最終確保精度一致。同時,Ascend C 算子端雲統一,支持一次開發多端部署,大大提高了后續跨平臺移植的開發效率。最后是模型泛化支持。CANN 工具鏈已針對業界主流開源模型(如通義、千問、LLaMA、ChatGLM 等)提供適配方案,並持續優化多模態和 MoE 等大模型場景。
朱世艾:支付寶作為互聯網大廠,在實際應用中關注三大優勢:實時性、隱私和成本。
首先,在大模型時代,語音助手、流式識別、實時翻譯等交互場景對時延要求越來越高,端側推理可避免網絡傳輸與雲端計算開銷,顯著提升響應速度。其次,支付寶端側 AI 的發展源於「新春五福」大促活動帶來的流量峰值,當時單靠雲端負載難以支撐,這促生了 X 引擎,也奠定了端側 AI 在支付寶的地位。如今進入大模型時代,計算壓力更大,端側 AI 能有效分擔峰值流量和計算成本。第三,個性化推薦和基於用户行為的實時決策常涉及敏感數據。如果在端側實現這些算法,可以降低數據風險,同時提升用户體驗。
因此,無論在傳統 AI 還是大模型時代,實時性、隱私和成本優勢都奠定了端側 AI 的發展基礎。儘管與過去相比,大模型的規模和算力需求使端側落地更具挑戰,但隨着生成式 AI 的發展,端側 AI 也應沿着這一趨勢不斷突破技術瓶頸。
朱世艾:從「可用」到「好用」:端側大模型落地過程中最大的挑戰是什麼?當前究竟被哪些挑戰給‘卡住了脖子’?
章武:「將大模型塞進手機里的過程」與「將大象塞進冰箱里」一樣困難。我們可以從以下幾個維度來談一談大模型入端的技術 挑戰:
放的下: 當前主流的旗艦手機還處在 8~12GB 起步的階段,所以大模型入端首要解決的問題是內存佔用問題。在有限的應 用內存增量(500MB 左右)和必要大模型參數量(0.5~1B),我們必須要提供一些內存瘦身技術將模型儘可能壓縮在可控 的範圍內,當前 CANN 工具鏈提供了低 bit 量化,Embeding In Flash 等方案,將模型的實際內存佔用控制在參數量內存的 50% 以下。
跑的快: 端側 AI 的核心價值在於隱私保護和低時延,在大模型場景,爲了在端側為開發者提供快速的大模型響應體驗,我 們 CANN 提供的親和量化算法提供了混合 bit 量化能力可以充分利用好 NPU 的算力,同時 CANN 工具鏈也提供了 Flash Attention、Prompt Cache 等技術進一步優化端側推理耗時,1B 開源生態左右的模型當前可以做到 1000token/1s 的快速 響應體驗。
功能泛化: 與雲側統一的 python 生態不同,端側 AI 當前軟件生態沒有統一,開發者將大模型從雲到端的遷移過程,要完成 從 0 起步的端側 AI 適配過程,調試工作量較大。CANN 工具鏈面向業界主流的開源模型做了功能的泛化,當前支持 qwen、 llama、chatglm 等系列開源大模型等,幫助開發者快速完成從 0 到 1 的過程,同時我們也在積極的適配和優化多模態、全模 態、MOE 等新型的大模型技術。我們提供的 ASC 自定義算子編程能力,開發者可以根據業務需要,自行的調整算子計算優 化策略。后續我們會逐步地開放大模型對接解決方案,提供對應的模型樣例,指導手冊,適配代碼 demo 等,幫助開發者 快速的在手機側集成大模型能力。
徐夢煒: 大模型與操作系統的融合是一個有趣且前景廣闊的話題。雖然多數技術人員認可這一趨勢,但其進展仍然緩慢,目前缺乏成熟成果,多是對未來的願景設想。我們認為,大模型將逐步下沉為操作系統的系統級服務,隨着其在終端和智能硬件中的作用愈發重要,操作系統也需要適應這種變化。
未來,應用可能逐漸演化為 agent,底層調用大模型,而大模型的功耗與內存佔用可能達到 90% 甚至更高,這意味着操作系統需重新定義資源管理。例如,大模型的 KV cache 是否應與 APP 內存採用同一管理方式?若採用統一機制,可能導致 recompute 開銷巨大,且系統現有的 Low Memory Killer 策略不適用於這種場景。
資源調度也是挑戰。目前 NPU 架構相對簡單,缺乏類似 CPU 的靈活調度機制。若未來多應用同時使用 NPU,如何實現隔離、搶佔和調度將是新問題。學術界剛開始研究這些課題,而工業界目前更關注如何先把推理性能做好。不過,隨着端側對低功耗和高效率的要求,大模型高度通用的特性將使 NPU 的價值顯著提升。
傳統 CNN 時代,NPU 因碎片化等問題未被充分利用,許多任務在 GPU 或 CPU 上即可滿足性能。但在大模型時代,NPU 的重要性將顯著增強。此外,手機廠商與應用廠商的角色與合作模式也會影響生態發展,進而影響技術研究方向與成果轉化。
朱世艾:從應用角度看,端側模型在實際業務中面臨的挑戰,源於其能力與預期之間的差距。端側的能力必須限定在「可控範圍」內完成任務,主要指帶參考的推理任務,例如總結摘要、翻譯、自動語音識別,以及 function call、MCP 等工具調用。未來要解決這些問題,仍需要「端—雲結合」的方案,這也將成為重要的技術方向。
從 APP 端視角看,我們還面臨一些終端廠商所沒有的特殊問題,其中之一是模型的部署與下發。首先,APP 的安裝包通常不能太大。然而,即便對模型進行了低比特量化,規模仍可能達到幾百兆。如果要將這種體量的模型下發到手機端,即使不考慮其他 APP 的佔用,僅就支付寶 APP 本身而言,內存壓力也不容忽視。能否在保證用户體驗的前提下,實現模型的即時觸達、加載和初始化,是一項重要挑戰。
對此,支付寶方面正嘗試多種方案。首先,與多家終端廠商的思路一致,我們優先通過更低比特量化,儘量縮小模型尺寸。其次,我們將模型參數規模聚焦在 0.5~1.5 億區間。同時,在終端框架和工程架構上,原本各業務獨立調用推理引擎,如今逐步演進為統一的大模型運行時管理框架,類似於「端側 AI 容器」。
朱世艾:針對這些挑戰,目前業界有哪些破局思路和技術方案? 請分享一些你們正在使用的、或認為最有潛力的技術方案和實戰經驗。
徐夢煒: 手機及各類終端的內存容量非常有限,短期內難以實現大幅提升,這會制約端側大模型的規模。但我認為,我們可以借鑑計算機「金字塔式」存儲結構的理念,通過更精細的存儲管理來突破限制。計算機從緩存到內存、外存形成分層體系,是基於時間和空間的局部性因此緩存技術纔有效。
大模型也存在類似的局部性特徵:部分參數被頻繁激活,而另一些參數則很少使用。這可能來自訓練時的 MoE 結構,其中 attention 參數幾乎每次都會激活,而多數 expert 的調用頻率較低。即便不是按 MoE 方式訓練,標準 Transformer 的激活也呈現冷熱分佈,有些參數經常活躍,有些則很少。研究還表明,可以通過后處理增強這種稀疏性。
這種稀疏性可以與存儲分層結合:把頻繁激活的參數常駐內存,而不常用的參數按需加載。如果冷參數數量足夠少,或 IO 速度足夠快,就能與計算重疊,從而幾乎不增加時間開銷。
這一思想不僅適用於端側,在雲端或更大型設備上,主存與顯存之間的交換也是常用技術。端上利用稀疏性同樣重要,這是擴大端側可運行模型規模的關鍵途徑。量化當然必不可少,但其上限約在 2–4 比特,而稀疏加載仍有潛力,讓更大的模型在有限算力上運行。MoE 結構因算力需求較低,天然適合端上芯片。
我們團隊一直嘗試利用模型稀疏性與存儲結構相結合,提升在 NPU 上高效部署模型的能力。雖然看似直接,但實際上在不同 NPU 上優化部署仍然是難題。去年我們發表了一篇 SDOS 論文,介紹在商用手機上實現端到端 NPU 推理的工作,當時使用的是高通芯片。今年也在研究華為平臺。高通 2023 年發佈的新 SoC 宣稱是為生成式 AI 設計,但我們發現其與 Transformer 模型仍存在較大差距,例如缺乏對動態 shape、group-level 量化等的支持。傳統 CNN 跑得很好,但大模型在硬件接口層仍有空白。
因此,我們從算法與系統協同設計角度優化,雖不能完全解決,但能緩解部分瓶頸並提升效率。然而,即便經過各種優化,decode 階段仍常受內存帶寬限制,尚未實現理想加速。可以結合投機計算等手段,但系統複雜性也隨之增加。總的來説,要想充分榨取硬件潛力,需要算法、系統與硬件的極致協同設計。這是我們在端側模型部署上關注的兩個關鍵方向。
章武: 我想重點談性能優化問題,因為端側與雲端的技術路徑差異明顯。雲端算力充足,優化的核心是通過多用户會話實現 Prefill 和 Decode 的分離推理,最大化算力和帶寬利用率。而端側多為單會話場景,Prefill 階段算力受限,Decode 階段則受帶寬限制,兩者需採用不同策略。
在 Prefill 階段,我們通過減少計算量來緩解算力瓶頸。例如利用 prompt cache 緩存通用 token,避免重複推理;同時結合混合低比特量化、激活量化進一步發揮端側算力。這些 training-free 技術無需重新訓練模型,只需藉助工具鏈簡單調優,即可在端上顯著提速。此外,部分研究提出基於訓練的方法,如用小模型壓縮輸入 token 數量,進一步縮短 Prefill 推理時間。
對於 Decode 階段的帶寬瓶頸,目前業界的主要方案有兩類:一是更低比特的量化,減小權重體積,提高帶寬利用率;二是升級硬件,如使用更高規格的 DDR 內存。在固定硬件下,常見方法包括 MoE、投機推理,以及近期熱門的 Diffusion LLM 技術,它們將帶寬瓶頸轉化為算力瓶頸,從而加速 Decode。但這些方法通常與模型訓練密切相關,需要廠商與互聯網企業合作,而非單靠工具鏈即可完成,我們也期待出現類似 training-free 的技術來解決帶寬問題。
最后是異構架構。目前多 IP 協同往往帶來額外調度開銷,而大模型通常包含上千個算子,層間頻繁切換會顯著增加耗可以時。因此,現階段異構並不能完全提升推理性能,但未來可能出現專門為大模型設計的新型推理架構,這仍是值得業界探索的方向。
朱世艾:我們與華為等廠商在早期合作時,就選擇了低比特量化路線,這是與許多通用方案的顯著差異。原因在於應用層面的大模型面臨兩大瓶頸:一是模型物理尺寸過大,影響下載;二是不同手機內存差異大且整體有限,約束了模型運行。因此,我們一開始便採用 2 比特量化,而非從 4 或 8 比特起步。
2 比特量化涉及多種方案,如線性量化、基於碼本的量化等。在探索過程中,我們將推理實現與壓縮算法深度融合,既關注模型尺寸和內存佔用,又平衡精度損失與實現友好性。例如,針對 2 比特較大的精度損失,我們選用更小的 block size(如 64,甚至 32),而不是常見的 128 或更大值。但更小塊也會增加量化參數存儲開銷,因此我們引入了二級量化(by-level count)來壓縮 scale,減少模型物理體積和加載內存。
在量化策略上,我們嘗試了 PTQ、training-free 和 QAT 等方案。PTQ 對 4 或 8 比特效果較好,但在 2 比特上表現有限,因此我們最終主要採用 QAT,並將其推廣至多模態模型和 ASR 模型。
關於 NPU 的使用,雖然手機每年迭代,但用户更換設備的周期較長,許多存量手機 SoC 並非為大模型推理設計,也缺乏足夠的工具鏈支持。因此我們採用異構推理方案,充分利用 CPU、GPU 和 NPU 的優勢。CPU 具備良好的可編程性,GPU 在浮點計算精度上表現出色,而 NPU 則在算力密度和功耗方面更優。我們基於自研量化算法,針對不同 SoC 進行優化。雖然部署複雜度有所增加,但收益明顯。
另一方面,直接在模型計算圖層面切分任務並不容易,收益可能抵消調度成本,因此我們也探索如 VLM 模型中將前置 ViT 子圖下放到 NPU,以減少調度並充分利用硬件計算資源。這些工作需要與硬件生態密切合作,才能將異構方案真正落地到端側設備。
觀眾:IoT 採集部分有端側的案例嗎?
朱世艾: 車機、智能眼鏡和機器人等設備,其實都屬於「端側」範疇。但今天的討論主題更多聚焦在手機端。當前已有不少 IoT 案例,如各類新勢力品牌的汽車,其車載終端往往包含交互場景,許多計算都基於端側完成;機器人則更典型,它們需要實時動作反饋,因此端側大模型推理是必不可少的。不過,這些設備的芯片往往可以採用更強大的設計,技術路線與手機或消費電子端側推理存在顯著差異。
端側大模型的應用與商業化
朱世艾:哪些場景最有希望率先跑通端側大模型?商業模式可能是什麼樣?
章武: 從技術角度看,我們的工具鏈已適配業界主流的第三方模型,並提供詳細的部署指導,大幅降低了中小開發者的研發成本。我們的開發網站不僅包含這些大模型樣例,還提供計算機視覺、音頻、自然語言處理、AIGC 等領域的小模型庫,幫助開發者快速找到適合其場景的模型。
這些模型大多經過端側調優或選型優化,開發者在此基礎上訓練模型時,只要滿足精度要求,就能自然解決端側部署和性能適配問題。其次,工具鏈支持 Ascend C 自定義算子功能,開發者可在端側調試自定義算子,並同步在雲側使用,實現一次開發多端遷移,從而顯著提升 AI 研發效率。
此外,工具鏈還提供豐富的算子和算力調優工具,開發者可藉助 Profiling 工具分析性能,調整模型結構,剔除端側不適用的算子,替換為更優實現,從而快速設計出端側友好的模型結構,兼顧部署性能與效果。
徐夢煒: 在數字世界,我們近期重點研究 Computer Use Agent,包括 GUI Agent 和 Function Code Agent。這類 Agent 非常個性化,類似私人祕書,會訪問大量本地數據或操作手機屏幕,因此隱私價值高,用户往往不願把這些數據上傳雲端。儘管目前大家仍關注精度,需要使用最新的大模型,但我認為未來落地時,端側將是主要方向。在物理世界,具身智能同樣需要端側大模型。一方面是隱私因素,例如設備採集的視頻流用户不希望上傳雲端;另一方面是成本與可用性問題,如無人機在無網絡環境下仍需自主決策。
朱世艾:從落地角度看,自去年起,端側大模型已成為商業化技術方案,終端側運行已基本成熟。華為、vivo、榮耀、蘋果等廠商的新旗艦手機均具備端側大模型能力,可處理文檔、本地搜索、簡單問答等任務,還支持相機算法優化和離線 ASR 等場景。Apple Intelligence 也提供了較完整的端側能力,供開發者和上層應用使用。然而,大規模應用仍有距離,目前主要集中在 APP 中,如支付寶等複雜業務場景。
在 APP 中應用大模型,需要關注機型覆蓋和算力差異。我們不僅要跟進手機迭代速度,還需在技術和算法上優化舊設備的推理能力,這是當前投入較多的方向。今年我們計劃在部分小場景做 POC,但要將其發展爲終端基礎設施,可能還需一到兩年。
另一方面,APP 的產品設計對大模型的精度和能力依賴較強,純端側難以支撐如支付寶這類複雜場景,因此我們與內部雲側方案合作,同時也與終端廠商和芯片公司探索聯合落地。在場景設計中,GUI Agent 是重點方向。對於以 GUI 頁面交互為主的 APP,如何利用端側大模型更便捷地服務用户,是我們端雲協同技術方案的核心議題之一。這一方向涉及實時交互、隱私與安全,是端雲結合中最容易形成實際應用和商業價值的領域,因此近期我們在這一技術方向上加大了投入。
展望未來
朱世艾:未來 3-5 年,端側智能的世界會變成什麼樣?端 / 邊 / 雲會如何分工協同?終端設備的形態是否會因大模型而改變?
章武: 隨着大模型的出現,用户越來越希望在手機中擁有一個「全能祕書」,即 AI Agent,能夠隨時處理各種事務。這一場景對端側的本地算力提出了很高要求。然而,由於端側硬件的發展仍有限,我們認為「端雲協同」將成為必然趨勢。端側 AI 的優勢在於隱私保護和快速響應,雲端 AI 則擅長利用大數據和強大算力。結合兩者特點,未來大模型將在多種場景中深度賦能,端雲協同無疑是理想方案。
端側 AI 可作為「神經末梢」,負責大模型的部分 token 計算,以及採集用户情感、偏好與隱私相關數據,經過整合后交由雲端「大腦」完成推理決策。雲端運行完整的大模型,端側運行輕量模型,實現從信息採集到推理決策再到快速響應的完整閉環。這種分工既能保證端側的隱私與實時性,又能發揮雲端在大數據和算力方面的優勢。
針對端雲協同的未來佈局,華為提出了一些生態戰略。我們計劃在年底前完成「看」框架的開源與開放,通過定義統一的計算架構和開放的編程工具鏈,讓開發者可以在端或雲中靈活編寫與調試算子,並在多端同步部署 AI 推理能力,從而顯著提升端雲分工下的應用開發效率。
徐夢煒: 未來端和雲必然都會運行大模型,但分工不同。雲端大模型更接近 AGI,致力於拓展人類知識邊界,例如解決數學難題或研究蛋白質結構;端側則更貼近生產力場景,處理與用户本地數據或上下文相關、需要個性化和隱私保護的任務。高通的白皮書中提到「未來的 AI 是混合式的」,我認為這一定會發生在端與雲上。
至於如何協同,最簡單也可能最合理的方式是「簡單任務在端上處理,複雜任務交由雲端」。但這並不容易,因為我們需要判斷端側模型能否正確完成任務,或何時應交由雲端處理,這與「幻覺」檢測及其邊界問題密切相關。因此,端雲協同是一個重要課題,值得學術界和工業界持續探索與研究。
朱世艾:大模型的建模方式和業務使用方式的發展,使過去複雜的業務邏輯得到簡化。如今,將 AI 融入業務已無需過於繁重的產品設計,交互方式也逐漸統一,例如流式輸入輸出。產品設計中,我們常首先考慮「大模型能否勝任該功能」。端側仍是智能化能力的主要入口,這一定位在未來三到五年不會改變。同時,端不僅是入口,還可能成為計算節點,承擔部分智能化能力。
端的形態已不限於手機,還包括車機、機器人、智能眼鏡和具身智能設備等,它們都是智能入口。部分設備如眼鏡,因功耗、尺寸與佩戴舒適性限制,算力較弱;但其他設備算力正日益增強,未來端將成為應用中的重要計算節點。
端與邊緣的協同仍是複雜問題,既與任務複雜度相關,也取決於環境變化。例如,機器人在無網絡環境中執行排險任務,或手機在高鐵、弱網等環境下,如何保持服務連續性與體驗質量?這都需要端側介入,且方式因應用場景不同而異,尚無統一範式。目前我們希望將部分功能獨立部署在端,如離線 ASR 關鍵詞識別或對話中的關鍵問題識別,同時將簡單任務交由端處理。
當然,端側決策需確保足夠準確,而無法面面俱到的任務可交給雲側處理。這是我們正在探索的多種端雲協作方式之一,目標是在保證端側決策可靠性的同時,讓雲端補充其不足,從而實現更完整高效的系統。
觀眾:端側大模型應該從哪個方面入手學習?
章武: 端側大模型的核心在於端側推理。針對這一方向,我建議首先要讀懂 Transformer 庫的推理源碼,這是理解端側推理的根本。同時,可以從 llama.cpp 入手,它是一個面向 CPU、GPU 等多種硬件進行入端適配的優秀開源項目,通過參與其中,可以快速瞭解端側推理模式,尤其是端側優化的實現。
通過這些學習,大家能更快理解端側推理與雲側推理的差異。LLaMA CPP 還提供 2~4bit 等多種量化方案,包括 group 量化,並在設計文檔和代碼中都有詳細實現,同時適配多種硬件平臺,這些內容有助於深入理解端側量化的重要性。
徐夢煒: 從不同角度看端側大模型也很有價值。門檻其實很高:首先要精通算法,例如 Attention 的數學形式必須熟悉;其次要看得懂 Transformer 庫的底層源碼,理解其中的數學原理,這是基本功。此外,作為系統方向,還需掌握底層 kernel 的編寫,與硬件和高性能優化相關,並能在複雜系統架構中修改代碼和調試。
剛纔提到的 LLaMA CPP 是經典項目。如果覺得它代碼量大、閲讀門檻高,可以嘗試我們開源的簡化版本 MLLM,在 GitHub 搜索即可找到。雖然只有約一千個 star,只是 LLaMA CPP 的零頭,但完全國產、代碼簡潔,便於學習,有問題也歡迎交流。
朱世艾:相較去年,今年從基礎模型研發到推理引擎和量化算法,開源社區已更加繁榮。如果大家想投身這一方向,這是非常值得深耕的領域,它能讓你全面瞭解模型從算法到底層實現的細節。此外,端側與雲側技術並非完全割裂,儘管場景和硬件形態不同,很多技術理念是相通的。對端側有較深入的理解,也便於轉向雲側或其他相關賽道。
朱世艾:對於想投身於此的開發者和初創公司,現在的機會點在哪里?是做模型、做應用、還是做工具?
徐夢煒: 大模型更像是一項具體技術,而非完整產品。如果想用它創業,當然有成功案例,尤其在硅谷,資本更看重技術併購,所以只要技術足夠優秀就有機會。但在國內,軟件創業並不容易,因此更適合將大模型與具體應用場景結合。例如,如果我在大模型上有積累,是否可以考慮把它與製造業、機器人或其他領域相結合?當然,這又涉及如何訓練模型、優化推理等一系列問題。
如果真正想創業、尋求更高上限,僅依賴大模型本身會比較困難。研發大模型當然很重要,但要獨立支撐一家公司的發展,還需結合實際場景,如應用開發、智能 Agent、無人機或其他深度垂直領域。
朱世艾:無論是做模型、應用還是基礎工具,都各有機會。但對普通開發者而言,做應用更容易取得成果。目前生態已相當繁榮,許多開源資源可以直接使用,降低了門檻。此外,許多 OEM 廠商和操作系統未來可能會開放端側模型推理的 API 或工具鏈,開發者可以基於這些能力發揮創意,探索更多有趣的應用。這不僅有助於生態繁榮,也更容易取得成功。
活動推薦
10 月 23-25 日 QCon 上海站即將開幕,3 天沉浸式學習,100+ 工程實戰案例,直面一線的挑戰與解法。大會將聚焦 Agentic AI、具身智能、強化學習框架、端側大模型實踐、多智能體協作等熱門話題,以及 AI 時代下的軟件研發、可觀測、開源等技術實踐。一票難求,立即掃碼預佔席位!