熱門資訊> 正文
2025-12-02 14:48
作者 | 凌敏
SaaS 用不好常卡在「最后一公里」。但 Al Agent 用不好,問題會出在「每一公里」。2025 被普遍視為企業級 Al Agent 的落地拐點:企業從「試試看」走向「用起來」,技術敍事讓位於業務結果。美國著名通信 API 服務機構 Plivo 的調研顯示,超過六成企業將 Al Agent 列為未來 12 個月的關鍵佈局,「價值導向型」採購興起,RaaS(結果計費) 正壓過傳統 SaaS(功能交付)。讀懂 MCP / GraphRAG / AgentDevOps / RaaS 四大趨勢,基本就抓住了「能干活的 Al Agent」的工程化答案。
1
企業級 Al Agent 究竟缺什麼?四大趨勢給出可複用的工程化解法
趨勢一:MCP 讓 Al Agent 可擴展
2024 年年末,Claude 母公司 Anthropic 首次在《Introducing the Model Context Protocol》一文中提出 MCP(Model Context Protocol,模型上下文協議)。這是一個能夠實現大語言模型與外部數據源和工具集成,並建立安全雙向連接的開源協議。爲了更加具象化地向公眾解釋這個新詞匯,Anthropic 在 MCP 文檔中稱「可以把 MCP 想象成 AI 應用的 USB-C 接口」,開發者能夠以一致的方式將各種數據源、工具和功能連接到 AI 模型,極大地降低了企業在 Al Agent 項目中的集成與運維成本。
Claude 3.5 Sonnet 第一個「吃螃蟹」,支持快速搭建 MCP 服務器;早期實踐者 Block 和 Apollo 也在第一時間將 MCP 集成進自身系統。隨后的一年時間里,MCP 迅速成為 AI 原生應用的重要基礎設施,並得到了多家海內外科技巨頭們的關注:微軟、谷歌、亞馬遜雲科技紛紛將 MCP 集成到自家的 AI 服務中,OpenAI 在 Al Agent SDK 中支持 MCP,BAT 也密集佈局 MCP 協議。社區的廣泛支持則代表了 MCP 在開發者生態中已經成為事實標準:GitHub、Hugging Face 上涌現了數千個由社區貢獻的 MCP Server,覆蓋數據庫、雲服務以及各類 SaaS 應用。11 月 25 日官方發佈的 MCP 周年博文中更是指出,MCP 註冊表中收錄的服務器數量已接近 2000 個,生態擴張速度可見一斑。
但生態上的繁榮掩蓋不了 MCP 在落地層面所面臨的現實挑戰,尤其對於中國企業而言,標準碎片化、安全治理以及運維管理層面上的難題愈加突出。標準層面,國內不少企業都基於自身業務生態推出了差異化 MCP 方案,實際運行中協議不匹配問題頻發,從而導致 Al Agent 協同能力受限。安全治理層面,MCP Server 認證生態混亂,權限邊界模糊,一旦被攻破,攻擊者可跨服務訪問敏感數據。此外,當前 MCP 協議在身份驗證、操作審計等關鍵安全模塊上尚不完善,難以滿足強監管行業更高的合規要求。運維管理層面,MCP Server 往往需要單獨部署,這也帶來了資源隔離與彈性伸縮的現實難題。
企業級 Al Agent 要想跨越從「可用」到「好用」的鴻溝,就必須需要一套更體系化的 MCP 方法論,在開源協議之上,重建統一、可治理、輕運維的連接層,而非簡單的單次集成。在全球範圍內,已經有多家企業驗證這一方向。最早採用 MCP 的公司之一 Block,將 MCP 用作多工具協調層,使得內部 Al Agent 可統一訪問支付、風控和客服系統,降低接口維護成本。一些開發者工具公司,如 Replit、Zed,也在生產環境中增加對 MCP 的支持,通過統一連接層讓 AI Agent 能夠跨代碼倉庫、調試工具、構建系統進行組合式操作,從而提升了任務的成功率與可觀測性。在國內,類似的工程路徑也在逐漸成型。以百融雲創為例,其推出的結果雲 Results Cloud 與企業級智能體平臺百融百工以 MCP 作為連接底座,對多模型、多工具進行統一接入與治理,降低企業運維與擴展成本。這些案例都表明,基於 MCP 構建統一治理層,已經成為企業級 Al Agent 發展的必然趨勢。
趨勢二:GraphRAG 讓回答不再亂
GraphRAG 是由微軟提出的結合了知識圖譜和 RAG 技術的新方法。傳統 RAG 更像是檢索增強,依賴向量召回與文本匹配,擅長從外部知識庫中檢索相關信息,卻難以保證跨文檔、跨版本的口徑一致性。GraphRAG 在 RAG 的基礎上進一步引入了知識圖譜,將信息以節點和邊的形式存儲,構建實體關係網絡,使得大模型不僅能檢索文本片段,還能理解深層邏輯關係。進而,確保 Al Agent 的回答內容更加全面且一致。在適用場景上,GraphRAG 適用於所有「長文、多跳、強邏輯、需可解釋」的複雜業務文檔場景,能把回答準確率提升 20–50 個百分點,並將 token 成本降低 10–100 倍,尤其適用於金融、保險、醫療、法律等高價值領域。
GraphRAG 同 MCP 一樣選擇了開源,這也加速了工程落地的腳步,社區基於此衍生出了多種更易用的模板。在 GitHub、Hugging Face 社區中,有多個項目基於微軟的官方實現,創建更輕量、更易於使用和定製的版本。此外,包括 LangChain 在內的多個主流開源框架,也已支持 GraphRAG 流程,將圖結構檢索能力與 RAG 模型結合,以構建更強大的知識系統。
但在落地層面,GraphRAG 面臨的現實挑戰同樣複雜。其一,知識圖譜的構建複雜度較高,企業知識分散在 PDF、PPT、表格與圖片等多個源頭,提取和解析難度較高;其二,知識版本治理缺失,由於缺乏統一的版本控制機制,Al Agent 在回答時容易引用過期規則;其三,全局召回的工程複雜度高,GraphRAG 在 RAG 的向量召回基礎上引入了圖譜召回,使得 Al Agent能夠更深層地理解上下文,但全局召回需要企業對全量知識進行解析,此外,一些簡單的問題可能也會觸發複雜的全局檢索,引入無關信息,增加成本。
因此,一套更加工程化的 GraphRAG 方法論正在中國企業中形成共識,其核心目標不是構建「龐大的知識庫」,而是構建「可治理的知識資產鏈路」。在國內,不少技術團隊都在沿着這一大方向推進工程化實踐,只是在具體路徑和側重點上有所不同。以百融雲創的實踐為例,其工程體系主要圍繞三大核心能力展開:第一,高精度文檔解析,只有在解析階段達到足夠高的準確率,才能更可靠地支撐后續的圖譜構建、全局檢索;第二,版本治理,以金融行業為例,規章制度每年迭代,各版本之間的關係複雜,必須依靠有效的知識庫版本管理機制,對其進行可控管理;第三,意圖澄清能力,在實際對話中,用户的意圖往往比較模糊,需要基於結構化知識樹做可控的意圖澄清,才能精準地獲取用户實際問題,最終輸出可靠的答案。
在這一體系中,關鍵的技術難點包括領域圖譜 RAG 的構建以及 RAG-U 型檢索(U-Retrieval)。以百融雲創的 FinGraphRAG 為例,在構建金融圖譜 RAG 時,需要經歷文檔分塊 (Doc Chunking)、實體抽取(Entities Extraction)、三重鏈接(Triple Linking)、關係構建 (Relationship Linking)、圖譜標籤化(Tag the Graphs)、通過 U-Retrieval 響應查詢 (Response via U-Retrieval)六大鏈路,整個鏈路的目標都是將非結構化知識轉化為結構化、可推理的圖譜體系,從而解決金融領域中長文本(年報、研報、會議紀要)、專業術語歧義和複雜因果推理的問題。
爲了兼顧精確性與全局視野,金融圖譜 RAG-U 型檢索還需實現自頂向下的精確檢索與自底向上的響應優化。在自頂向下的精確檢索階段,需要先為查詢打標籤,並沿 tag 索引樹自頂向下路由,在目標圖譜中選取關鍵實體與鄰居,最終根據圖譜生成初始回答;在自底向上的響應優化階段,需要從剛纔選中的葉子節點往上走,依次訪問其父級標籤摘要,每向上一層,就向 L_R 提供 QUESTION: {Q}、LAST RESPONSE: {A_{i}}、SUMMARY: {T^{(i-1)}},並要求其「根據更上層的摘要信息,修正 / 補充上一輪迴答」,最終在頂層得到一個既保留底層圖譜細節,又融合更寬廣全局視角的回答。進一步而言,U 型檢索像是在金融知識圖譜中先鑽入某個最契合問題的「細顆粒業務簇」(例如「客户 B 在過去一年內的境外大額轉賬模式」),基於局部圖輸出精準判斷,再一路向上,把「客户整體資產負債情況」「他所在行業的宏觀景氣度」「同地區同客羣的歷史違約率」等高層上下文逐步加回到回答中。
趨勢三:AgentDevOps 讓 Al Agent 真的可控
隨着企業將更多流程交給 Al Agent 執行,業界開始形成一個清晰共識:Al Agent 的開發與運維無法繼續沿用傳統 DevOps 模式,需要一套針對 「推理型系統」 的工程體系,即 AgentDevOps。不同於傳統 DevOps 聚焦系統可用性與部署效率,AgentDevOps 的核心目標是 確保 Al Agent 的行為質量、任務完成度與推理鏈路的穩定性,讓 Al Agent 能夠持續輸出可靠結果。
從行業角度來看,AgentDevOps 與傳統 DevOps 的根本差別體現在四個方面:
第一,責任對象不同——從系統可用,轉向對業務結果負責。Al Agent 的價值不體現為「服務正常」,而體現為「任務是否完成」「判斷是否正確」。
第二,觀測維度不同——從指標監控,轉向推理鏈路可觀測。 行業普遍認為 Al Agent必須具備 Reasoning trace(推理軌跡),包括意圖 →檢索 →推理 →工具調用→輸出的全鏈路可追溯性。
第三,調試方式不同——從代碼調試,轉向行為調試。 傳統日誌無法解釋「為什麼答錯」,AgentDevOps 需要能復現推理路徑、定位錯誤來源。
第四,優化機制不同——從人工調參,轉向基於數據的持續自我優化。Al Agent需要按照真實反饋不斷提升判斷質量,而不是靜態上線。
目前,業界對於 AgentDevOps 的系統性研究仍處於探索階段,但已有不少企業開始將其從工程理念推向生產級實踐。今年 3 月,LangSmith 為基於 LangChain 或 LangGraph 構建的應用程序提供完整的端到端 OpenTelemetry 支持,開發者可以記錄 Al Agent 的推理鏈路、工具調用、RAG 檢索 / 檢索調用歷史等。微軟 AutoGen 也通過與 OpenTelemetry 的集成,讓 Al Agent 的多輪對話、節點分支和工具執行過程實現結構化記錄,並可將這些 trace 統一輸出到 LangSmith 或第三方可觀測平臺。
在企業級 Al Agent 體系中,要想做到工程化的治理與可觀測,需要具備回放、A / B 測試、審計、以及基於 SLO(服務質量目標)/ SLA(服務質量協議)的質量與結果保障這四種關鍵能力。 但相比海外的體系化探索,中國企業在構建 AgentDevOps 能力體系時面臨的挑戰更加複雜。在回放能力方面,很多 Al Agent 可能運行在雲端、本地部署等多套系統中,運行軌跡難以完整捕獲;在 A / B 測試方面,評估體系仍不不成熟,難以科學地對比不同 Al Agent 策略的優劣;在審計方面,Al Agent 的每一個決策都可能需要接受審查,但現有工具鏈往往無法完整記錄 Al Agent 對知識版本、策略選擇和工具調用的依據;在 SLO / SLA 方面,傳統的 SLA 主要承諾系統的可用性與響應延迟,但企業級 Al Agent 在業務場景中還缺乏明確的指標口徑。
釐清這些挑戰,還需要一套務實的方法論。當前,中國企業的 AgentDevOps 方法論正在逐步成型。比如,百融雲創就在行業共識的基礎上,對 AgentDevOps 能力體系做了進一步增強,並從四個方面推進 AgentDevOps 落地:
(1)全流程工程能力:覆蓋開發 - 調試 - 部署 - 監控 - 優化的全鏈路,並形成標準化、可追蹤的工程體系;
(2)場景化評估器:在業務維度實時跟蹤「硅基員工」的實際表現,讓企業能看到每一個節點、每一個業務指標的變化,從而真正做到價值可視化;
(3)半監督自適應優化:在開發階段自動搜索最優參數與 Prompt 組合,使 Al Agent 快速達到可上線標準,減少冷啟動成本;
(4)強化學習增強的在線優化:在運營階段基於迴流數據持續迭代策略,讓 Al Agent 隨使用不斷更穩、更佳。
在落地實踐中,這些系統性增強帶來顯著且可量化的效果,比如,人工調參與維護的成本顯著下降,Al Agent 的上線周期大幅縮短,並且超過 70% 的典型應用場景實現了自動優化,穩定性提升明顯,Al Agent的產出質量持續增強。
趨勢四:RaaS 讓 AI Agent 能用 KPI 説話
正如前文所言,RaaS 作為一種新興的服務交付模式,正在全球範圍內對 SaaS 發起挑戰,甚至市面上出現了不少「RaaS 是 SaaS 的未來」「90% 的 SaaS 企業將面臨淘汰」等聲音。今年 5 月,全球頂尖 AI 創始人齊聚舊金山,在紅杉資本第三屆 AI 峰會(AI Ascent 2025)上達成重要共識:人工智能正迎來一場根本性變革,其核心不再是出售技術工具,而是直接交付可衡量的業務成果和收益。 簡單來説,RaaS 的核心理念就是讓客户為可衡量的業務成果付費,而不僅僅是為軟件訪問權限或流程付費。
在海外,很多創新型公司都已經成功應用了 RaaS 模式。比如 Simple.ai 根據客户滿意度評分的提高或問題解決時間的縮短向客户收費,將定價與結果直接掛鉤;Freightify 根據運輸成本的節省或貨運管理時間的減少來收費;客服 SaaS Kustomer 徹底取消訂閲制,改為按問題解決量收費;Salesforce 推出 Agentforce,對話式 AI 按每次有效對話 2 美金計費……
但企業在推進 RaaS 模式之前,還需要回答一個最關鍵的問題:如何對齊結果計價與財務口徑? 換句話説,怎樣的結果算是符合客户預期?按結果驗收又該怎麼驗收?最突出的矛盾是,不同崗位對於不同業務場景中的結果,評價標準本就存在明顯差異,比如,同樣是客服崗位,售前諮詢場景關注響應速度、轉化率,售后服務場景關注問題解決時效、滿意度,跨部門協作場景關注信息流轉的完整性與合規性。這種多維度、多口徑的評價標準,使得企業與客户難以就清晰、客觀、可驗證的「結果」定義達成一致。此外,企業在從傳統的按賬號和席位收費的模式,轉向按結果計費時,也會面臨體系銜接等挑戰,如何平穩過渡又是一大難題。
根據國內第一批踐行 RaaS 模式的企業實踐路徑,一個可行的方向是 將抽象的結果轉化為可度量、可兑現的 SLA 項。比如,客服 Al Agent 不是按席位或調用次數報價,而是圍繞接通率、有效對話輪次、邀約 / 轉化量、誤報率等 SLA 項與客户對齊價值,每一項都有明確的數字和驗收標準,更具象化地體現了 Al Agent 的業務價值。百融雲創推出的硅基員工也是基於這一模式,將 AI Agent 原生地嵌入企業級工作流和 SLA,讓硅基員工像人一樣接受 SLA / KPI 考覈,與業務成果直接綁定,創造的價值再進行收益分享。
當 MCP、GraphRAG、AgentDevOps、RaaS 這四大趨勢逐漸清晰,並在產業側進入工程化成熟期時,企業級 Al Agent 的落地路徑也就有了更準確的答案。如果把這些能力真正放進企業的真實業務場景,會發生什麼?最直觀的變化就是,Al Agent 不再是輔助工具,而是能夠承擔具體崗位職責,並且可以像人類員工一樣接受 KPI 考覈。
2
什麼樣的 AI Agent 「能干活」?企業的一線標準都在這里
在 金融、汽車、公共服務、招聘 / HR 等高觸達鏈路,Al Agent 落地已從試點走向規模化,逐步形成了一批 可檢驗、可複用 的企業級樣本。
其中,最典型的一類是 面向大規模觸達的營銷 / 運營 場景。以金融為例,在觸達龐大規模的客户羣體時,傳統方式通常依賴人工外呼,AI 技術改造后,雖然效率提升了,但在意圖識別、交互體驗上還一言難盡。如今,藉助大模型與多智能體,金融行業在進行存款產品的智能營銷時,能通過深度解析客户通話,精準識別意圖,自動生成對話文本與服務小結,同時依據客户關注的收益率與流動性偏好,智能匹配存款產品並形成個性化營銷策略。
這對底層大模型的能力要求就是,不能再是傳統的「一問一答」式,必須變被動為主動,能主動推進、主動談判、主動溝通。百融雲創研發的 BR-LLM-Speech 就是結合了大語言模型、強化學習技術和多模態端到端主動大模型,能結合實際業務目標動態制定策略,主動引導對話,並且在交互層面,響應速度在 200ms 以內,多輪對話 ≥ 100 輪。
不要小看 200ms 這個數字,這背后實際上是對整條實時語音鏈路的極高要求——因為真正的實時語音 Al Agent,並不是「一個 RTC 就能搞定」的事情。RTC 只是實現實時性的基礎,真正決定用户能否獲得「像真人一樣順暢溝通」的體驗,是整條端到端語音智能鏈路的協同優化能力。
要想實現這項能力,需要突破四大瓶頸:
第一,ASR → LLM → TTS 的多段式模型鏈路。在真實業務場景中,一條語音必須經過「語音接入 → ASR 解碼 → LLM 多輪推理 → 工具調用 → 業務系統訪問 → 文本生成 → TTS 合成 → RTC 回傳」,這條鏈路遠比視頻會議複雜得多。ASR 可能需要累計幀,LLM 可能觸發多次子調用,TTS 可能需要韻律調製,這些都會形成 200–800ms 的模型計算延迟。因此即便 RTC 只有 30ms,端到端仍可能超過 2 秒。
第二,端到端模型並行帶來的調度與資源管理。實時語音鏈路不是單模型推理,而是要結合多模態輸入的語義完整度、説話人識別、端到端的語音理解和生成。GPU / KV-cache 管理、音頻幀批處理、模型複用、上下游同步,是工程上挑戰極大的部分。
第三,實時語音場景對穩定性提出極端要求。一個輕微的 jitter、一次不完整幀、一次延迟積累,就可能造成體驗「頓一下」。這就要求從 RTC 到模型 pipeline 必須做到精細幀級調度、音頻包級容錯、模型級 backpressure、實時工具調用(超時與重試),以及推理鏈路的動態裁剪。這些已經超出傳統 RTC 能力的範疇,需要完整語音 pipeline 的系統性優化。
第四,多模態化帶來的算力壓力。當場景加入更多模態之后,模型中各 block 處理耗時不同,依靠百融自研的推理框架(Vortex),實現算力模塊的精細化調度,才能讓多模型真正「匯流」。
總的來説就是,RTC 是實時語音的基石,但決定 用户是否「感覺實時」 的關鍵,是企業是否具備 完整的模型 → 工具鏈路 → RTC 的端到端語音智能 pipeline 優化能力。百融百工的差異化優勢也來自於此。通過自研實時語音模型、語義 VAD、零樣本 TTS、RTC 深度整合、Vortex 多模型融合推理,再加上 AgentDevOps 的自動評估與調優,能在真實業務中實現 200ms 的自然對話體驗。
另一類典型場景來自招聘 / HR。招聘鏈路同樣面臨候選人規模大、溝通頻次高、人工成本高、反饋窗口短等現實壓力,因此,企業期望通過引入企業級 Al Agent,以更穩定、可持續的智能能力重構流程:一是 AI 獨立的初篩與邀約能力,在高峰期對大量候選人完成意向澄清、時間協調與到訪安排,承擔重複性溝通;二是 AI 輔助招聘官能力,針對關鍵崗位做前置初篩與異議處理,輸出候選人畫像與風險點,提升邀約到訪率,降低「無效溝通」,實現降本增效。
在百融雲創與某大型企業的人才招聘項目中,面向藍白領混合崗位,Al Agent 相比早期方案邀約到訪率更高、平均處理時長顯著縮短,且 無效溝通佔比下降;由於 AI 在前置環節進行了高效干預,線下面評資源被更有效地分配至高優先級候選人,從而降低整體人力投入。招聘鏈路的另一關鍵在於 知識治理:Al Agent 在回答崗位 JD、薪酬帶寬、福利政策、背景調查口徑等問題時,必須 答得上且口徑一致,才能真正承擔招聘崗位的職責。在知識治理層面,Al Agent文檔解析準確率可達 95% 以上,為招聘鏈路的可控性提供保障。
雖然不同崗位對 Al Agent 的能力要求各有側重,但無論場景如何變化,準確性和穩定性都是 Al Agent 能干好活的前提。在提升 Al Agent穩定性,保障其能在線自主持續學習方面,百融雲創提出了 Training Free 技術,不依賴模型微調,而是通過客户反饋的 Bad Case 提煉經驗,動態優化提示詞。這些經驗會與提示詞動態結合,持續修正 Al Agent 行為,讓 Al Agent 具備自適應優化能力。
這些案例表明,企業級 Al Agent 正在越來越深入地嵌入業務鏈路,承擔着具體的崗位職責。而當企業級 Al Agent 從點狀創新走向組織級重構,將為業界帶來一套新的規則也未可知。
3
企業級 Al Agent 上崗前,先通過這份自檢清單
在迎接這一宏大敍事前,企業還需要一份實用的 Al Agent 落地實踐自檢清單。對應着前文提到的四大重要趨勢,這份 Checklist 已然清晰。
第一,看連接協議層,Al Agent 是否能絲滑融入現有業務? 對內,Al Agent 能與企業核心系統安全、穩定地對接,對外,Al Agent能與外部生態進行交互。其中,任何一個不明確的連接協議,都可能導致任務執行中斷、數據丟失或響應延迟,直接影響 Al Agent 的業務產出和用户體驗。
第二,看知識口徑層,Al Agent 是否答得上且口徑一致? 知識口徑一致決定了Al Agent 是否能言而有據,在各種不同場景下都能輸出與企業標準保持一致的信息,真正承擔崗位職責。在落地前,需要確保 Al Agent 的知識來源是否能夠覆蓋關鍵業務文檔和規則,是否具備有效的知識庫版本管理機制。
第三,看觀測與治理層,Al Agent 是否透明可控?Al Agent 在業務鏈路運行時,是否有一套完善的觀測體系監控其執行效果和行為軌跡,是否能及時檢測到異常情況,定位異常觸發點,分析原因並最終解決。
第四,看結算口徑層,Al Agent 價值是否能與財務對齊?RaaS 模式下,Al Agent 崗位職責是否可以拆分成多個可驗收的明確節點,定義能與業務流程對齊的、清晰的 SLA,從而公平準確地衡量 Al Agent 價值。
4
結語:下一站是哪里?
當前的企業級 Al Agent 已經成功實現了從工具到崗位的躍遷,下一站,是從具備通用能力的 Al Agent 轉向崗位專家。
其一,通過構建全流程數據工程體系,實現能力的深化。 比如,百融雲創正通過 「自動化清洗 - 專家話術提純 - 合成數據擴充」 的工業化生產線,將金融營銷、貸后管理等場景的優質語料轉化為高質量訓練數據,結合強化學習(RL)優化獎勵模型,使主動大模型的溝通策略、風險識別能力向 「金牌員工」 對齊。
其二,通過多樣化能力實現場景的細化。 以金融行業為例,在客户通話過程中,Al Agent 可以引導客户查看或操作相關業務內容,同時根據客户的實時反饋自動調整溝通流程、表達方式甚至使用不同的方言,從而滿足客户更多的細分場景。
當企業級 Al Agent 成為崗位專家,能以模板化方式複用,並且這些能力能夠與企業的財務口徑對齊時,規模化部署的條件就真正具備了。屆時,或將同時激發供需兩端活力,實現真正的人機共存。