熱門資訊> 正文

黃仁勛100萬億預言兑現！易鑫Voice Agent落地，汽車金融迎效率革命

2026-05-13 12:11

易鑫集團(02858.HK) 0
OP(OP_USD.HASHKEY) 0

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：新智元）

新智元報道

【新智元導讀】Voice Agent終於能打實戰了！這家中國公司靠一套Model + Harness的方法論，正在重新定義金融級Agent的標杆，也撬動了黃仁勛所預言的百萬億美元市場。

Voice Agent賽道，從來不缺故事。

2024年，GPT-4o橫空出世，全球科技圈集體高潮——「AI終於會説話了」。

緊接着，數以百計的Voice Agent創業公司如雨后春筍般冒出，融資消息一個接一個。

硅谷的投資人們畫了一個萬億級的大餅：AI語音智能體將重塑一切電話交互場景。

但到了2026年，畫風變了。

絕大多數通用Voice Agent，在實驗室里表現驚艷，到了真實業務里卻頻頻翻車——

聽不懂方言、扛不住噪音、一被打斷就「邏輯崩盤」、合規紅線踩了又踩。

尤其是金融、保險、醫療這些更復雜、專業的場景，通用方案几乎集體啞火。

就在行業還在糾結「Voice Agent到底能不能用」的時候，一家中國公司給出了答案。

通用方案水土不服，垂類需要「場景原生」

深耕汽車金融11年的易鑫，沒有去追「通用AI」的風口，而是扎進了最難啃的垂類場景。

為此，他們自研了一套「工業級」Voice Agent系統。

它集Multi-Agent協同架構、Turn-Taking模型、場景降噪引擎和多語言TTS大模型於一體。

要理解易鑫Voice Agent的價值，首先要理解一個殘酷的現實：通用AI方案在汽車金融面前幾乎是「裸考」。

業內大廠Voice Agent方案，大多是追求普適性與標準化——

在通用場景可以快速落地，但對汽車金融這類鏈路複雜、合規嚴苛、業務節點密集的垂直場景，適配度始終不足。

更現實的問題是，通用方案追求「播音員級」的優美音色，側重聽覺體驗，本質是「體驗優先」。

但在電銷場景里，一個聲音好聽但沒有「人味」、不懂業務的AI，反而讓客户秒掛。

易鑫的做法截然不同。

在表層，他們選用貼合車主溝通習慣的音色，適配方言場景；

但在深層，真正讓客户不掛電話的，是Agent不僅兼顧了親和力與合規嚴謹性，還學會了老電銷那種「先共情再辦事」的對話直覺。

核心目標只有一個：優化客户體驗，提升轉化率，實現「業務優先」的價值閉環。

這就是「通用適配」和「場景原生」的根本區別。

前者在試圖讓一把萬能鑰匙打開所有鎖，后者在為每一把鎖量身打造鑰匙。

把自由聊天，變成「精密流水線」

易鑫Voice Agent最核心的技術突破，是其基於文本的Multi-Agent協同架構。

這里有一個行業背景需要交代：目前絕大多數企業，哪怕是最簡單的單Agent方案，都不敢直接推上生產環境。

原因很簡單，通用Agent可控性差、工具調用不穩定、任務容錯率低。

一旦模型「自由發揮」，在金融合規場景里就是災難。

易鑫的解法是：把一通複雜的銷售電話，拆解成多個高度專注的「小任務」，分配給不同的Agent專項處理。

具體而言，系統部署了四大Agent板塊：問候與結束、資質確認、添加微信、諮詢問答。

每個Agent專注處理一個細分任務。這套架構的精妙之處，在於以下三個「硬核」設計：

第一，一個任務節點只管一件事。

汽車金融場景真實的電銷SOP包含身份確認、需求確認、資質確認、添加微信等一系列遞進環節。

如果把所有規則塞進一個巨大的Prompt里，大模型會瞬間「過載」，極易出現幻覺——不知道先干啥、容易聽錯話、或被客户一句話帶偏。

所以易鑫的做法是：把整個流程切成一個個任務節點。

每個任務節點只負責一件事，並且擁有獨立的指令、話術示例和工具集，AI被嚴格限定在當前任務範圍內——達不成目標，就無法進入下一個任務節點。

第二，流程走到哪一步，系統說了算。

一般來説，傳統做法是讓LLM自己判斷「接下來該干什麼」，比如輸出「關鍵詞」決定流程走向。

但這種方式極其脆弱，AI一旦「想岔了」，整個對話就跑偏了。

為此，易鑫專為流程流轉上一把「物理鎖」。具體來説：

每個任務節點完成后，Agent輸出了符合格式要求的結果，纔會被視為正確的「交接信號」，流程才能往下走。

不僅如此，系統在啟動時，就會強制校驗所有任務節點之間的跳轉關係是否真實存在。

如果某個節點指向了一個根本不存在的下游環節，直接報錯攔截。

AI想「自由發揮」，系統根本不給它機會。

第三，用户打斷時，AI不會「記混」。

電話里用户隨時可能打斷插話，這是常態。但對AI來説，這是個大麻煩。

普通單體文本Agent會把所有生成內容塞進記憶，導致后續業務邏輯錯亂。

易鑫的處理方式是，對話記錄不由模型自己管，而是交給外部框架統一管理——

當用户打斷時，系統只保留用户實際聽到的那部分內容，再追加用户的新輸入。

這樣，當流程從「破冰問候」推進到「資質確認」時，下一個任務節點拿到的對話記錄是乾乾淨淨、完整還原真實通話的，不會因為中途被打斷就記串了。

Multi-Agent協同架構把電銷從「不可控的自由對話」，變成了可追溯、可質檢、可合規、可複製、可運營優化的SOP。

這纔是Agent能進核心業務的前提。

讓AI選擇性失聰，掌握「説話的藝術」

如果説Multi-Agent架構是「大腦」，那降噪引擎和Turn-Taking模型就是「耳朵」和「嘴巴」。

要讓AI打好一通電話，第一步是聽得清，第二步纔是接得住。

先説「聽」，降噪引擎要解決的，是讓AI學會「選擇性失聰」。

真實電銷場景里，客户可能在地鐵上、馬路邊，甚至嘈雜的工地里接電話。

背景噪音經常讓AI產生「幻聽」：鳴笛聲、他人交談聲被錯誤識別為客户指令，產生大量「無效輪次」（Noise Rounds），直接干擾AI的決策邏輯，導致Voice Agent頻繁「亂插話」或「答非所問」。

易鑫AI團隊上線的場景適配降噪引擎，在兩個關鍵維度實現了突破：

低信噪比噪音消除率80%，將嘈雜環境的壓力分散到降噪模型，在最低限度損傷音頻的情況下，處理好絕大部分干擾AI決策的噪音。

同時，通過語義保真算法，確保主説話人的語音特徵完美保留，ASR識別準確率不降反升。

聽清楚了，下一個問題是：什麼時候該開口？

這正是Turn-Taking要解決的「對話節奏」問題。

在真實電話場景中，每個人的説話習慣千差萬別：有人語速極快，有人説一半停下來想想再繼續。

傳統方案，AI要麼在人還沒説完時就插嘴搶，要麼人説完了半天沒反應，兩種體驗都讓人想掛電話。

為此，易鑫自研的Yx-Turn預測模型，核心任務只有一個：判斷客户到底説完了沒有。

它同時聽兩樣東西。

一是聲學信號，包括客户的語氣、停頓、拖音等。

二是語義理解，比如客户説的話里有沒有「嗯…我想一下」、「那你看這樣行不行」這類未完待續的意思。

模型將每輪會話的交互狀態分為三種：發言結束（EOT）、繼續發言（CT）和掛起等待（WAIT），並通過三階段演進式數據構建策略，逐步從「不搶話」進化到「讀懂意圖」。

舉個例子，當用户説「等一下」時，系統識別為掛起狀態，迴應「好的，不着急」，保持收音不中斷，同時繼續等待客户后續發言。

更值得一提的是框架層的「兜底策略」。在全雙工對話中，用户隨時可能打斷AI。

易鑫採用了創新的消息合併策略：將未完成消息暫存至緩衝區，設置觀察等待期，若用户繼續表達，系統自動合併新舊消息，確保LLM基於完整上下文推理；若識別為無意發聲或噪聲，則自動過濾。

這徹底解決了傳統方案中「用户一打斷，AI就失憶」的尷尬。

這套機制還解決了行業公認的「幽靈回覆」（嗯、額、啊等語氣詞）難題，系統能精確區分用户是在隨聲附和，還是在給出答覆，不再因誤判導致邏輯跳步或搶話。

這項技術聽起來不夠「性感」，但在電銷場景里，它直接決定了用户願不願意繼續聽下去。

用易鑫高級算法工程師的話説，「我們的目標不是訓練一個技術最牛的模型，而是訓練一個最懂易鑫業務的模型」。

這種務實到骨子里的技術哲學，恰恰是易鑫Voice Agent能跑通生產環境的底層原因。

橫掃多種語言，劍指全球市場

Voice Agent的最后一塊拼圖，是語音合成（TTS）。

基於覆蓋全國340余個城市的業務網絡，易鑫自研TTS大模型已全面適配普通話，同時支持四川、天津、東北、河南、廣東、福建、湖南等多地主流方言。

更值得關注的是全球化佈局。

易鑫TTS已支持英語、西班牙語、葡萄牙語等主流語言，並針對日本、馬來西亞、新加坡、澳大利亞、墨西哥、巴西等核心出海市場進行了深度本地化定製，兼容多個小語種及變體，可覆蓋全球大部分主流汽車金融商業化語音場景。

這一成績離不開易鑫在技術層面的深耕。

為還原真人般的聲音，易鑫搭建了三層語音數據體系——標準語音數據、真實口語數據和專業錄音數據，讓模型聽足夠多樣、真實的聲音。

為深度貼合汽車金融業務特性，模型對專屬場景、專業術語、業務話術做了專項調優，使音色、情感、語調、語速和本土化適配等效果全面升級。

在訓練策略上，團隊引入GRPO強化學習方法進行后訓練：

從內容準確性、音色還原度、情感表現力、聽感自然度這四個維度由「AI評委」對合成的語音進行打分（獎勵），最后會匯總成一個綜合獎勵信號，驅動模型持續進化。

模型學會的不只是「怎麼説」，而是什麼時候、以什麼方式説，才最契合人類的情感邏輯。

Model + Harness，

一套真正能打的Voice Agent方法論

如果把上述技術能力拆開來看，每一項都有不少公司在做。

但易鑫Voice Agent真正的差異化，在於它背后的一套完整方法論：Model與Harness的深度結合。

英偉達CEO黃仁勛曾預言，AI Agent等AI技術將創造100萬億美元的市場。

但預言要落地，便需要這個關鍵公式：Agent = Model + Harness。

所謂Model，是指大模型本身的能力：語義理解、意圖識別、文本生成、語音合成。這是AI系統的「智力」。

所謂Harness，則是約束、駕馭和編排模型能力的工程化架構：結構化狀態機、防幻覺協議、外部記憶管理、合規流程門控、工具調用治理。這是AI系統的「紀律」。

在真實的生產環境里，一個沒有Harness約束的強模型，就像一匹沒有韁繩的野馬，跑得越快，翻車越狠。

在易鑫Voice Agent系統中，這個理念被貫徹到了每一個技術模塊：

自研Agentic大模型XinMM-AM1提供300億參數級的語義理解能力；

而全雙工交互框架、Multi-Agent協同架構、Turn-Taking模型和降噪引擎等模塊，共同構成了Harness體系。

易鑫是一家AI驅動的金融科技平臺，2017年在香港上市，2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣，全球擁有員工5000多人，核心產品為Agentic AI解決方案，深度賦能汽車金融全鏈路。Voice Agent是易鑫Agentic AI解決方案的關鍵拼圖，可應用於電銷、預審、客服等多個場景。

兩者融合，才把不可控的LLM變成了聽指揮、守紀律、能實戰的生產級數字員工。

同時，這套Voice Agent還調用了豐富的「金融專屬工具」——線索質量覈查、渠道風險識別、網絡化欺詐識別、欺詐聲紋檢測、情緒分析、流程合規檢測，以及加微申請、短信發送、知識庫檢索等通用工具。

Model負責「想」，Harness負責「管」，工具鏈負責「干」——

三位一體，纔是工業級Voice Agent的完整形態。

實戰數據亮眼

所有技術敍事的終點，都指向一個朴素的問題：效果到底怎麼樣？

易鑫Voice Agent交出的成績單足夠硬氣：

接通率媲美人工坐席，加微成功率超越人工。

在電銷場景中，「接通」只是起點，真正有價值的動作是把線索轉化為合規的私域客户。

這意味着，后續可以持續觸達、深度運營。

易鑫Voice Agent的接通加微轉化率可達20%以上，這個數字在行業里已屬前列。

跨多個會話連續推進，線索流失率大幅下滑。

傳統電銷最大的痛點之一是線索跟進不及時、不連續——人工坐席忙不過來、跟進節奏不穩定、記錄不完整。

易鑫Voice Agent能夠及時、持續追蹤每一條線索，效率大幅提升。

更讓人興奮的是落地速度：這套系統專為汽車金融全場景定製，支持低代碼快速部署。

而且其模塊化架構天然支持場景遷移，80%的流程不變，只需替換20%的業務節點，就能快速適配新業務線。

未來，這套方案還將向泛金融領域延伸，為保險、銀行等場景提供同級別的智能語音解決方案。

有用，纔是最高級的技術

回過頭看，Voice Agent賽道的競爭格局已經日漸清晰：通用方案追求廣度，垂類方案追求深度。

而在汽車金融這個合規嚴苛、鏈路複雜、專業性極強的戰場上，「廣度」解決不了任何真實問題。

易鑫用11年的行業沉澱，證明了一件事：

真正的工業級AI，從來不是模型參數的軍備競賽，而是對業務的深刻理解與工程化能力的深度融合。

當行業還在爭論Voice Agent的技術路線時，易鑫已經在真實的生產線上，用每一通電話、每一個轉化數字，定義着「場景原生」AI的行業標準。

有用，纔是最高級的技術。而易鑫正在證明，這句話不是口號。

黃仁勛100萬億預言兑現！易鑫Voice Agent落地，汽車金融迎效率革命

推薦文章

美股機會日報｜通脹壓力爆表+美拒絕伊朗停戰方案，三大期指齊跌，油價一度飆漲3%；「木頭姐」最新持倉出爐！再度減持特斯拉、押注太空概念

一周IPO | 中籤即「吃肉」！樂動機器人、劑泰科技上市首日均漲超120%；翼菲科技孖展認購近1.49萬倍，成港股新「超購王」

上市首日大漲68%！「英偉達挑戰者」Cerebras創下2019年來美國科技公司最大IPO記錄！（附投資分析）

華盛早報 | 特朗普持倉大曝光！大額買入英偉達、蘋果；SpaceX招股説明書據悉最快下周披露！

特朗普第一季度進行3,642筆股票交易，打破數十年保密信託慣例

時隔九年再訪華！特朗普攜最強商業天團隨行，美股半導體、存儲、航空等七大板塊或迎來利好

美股機會日報 | 「沃什時代」開啟！美聯儲今日正式「換帥」；H200芯片售華松綁？英偉達盤前漲超2%劍指七連漲

一圖看懂 | 營收、淨利雙雙超預期！中芯國際Q1銷售收入25.05億元，同比增超11%