繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

黃仁勛100萬億預言兑現!易鑫Voice Agent落地,汽車金融迎效率革命

2026-05-13 12:11

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:新智元)

新智元報道

【新智元導讀】Voice Agent終於能打實戰了!這家中國公司靠一套Model + Harness的方法論,正在重新定義金融級Agent的標杆,也撬動了黃仁勛所預言的百萬億美元市場。

Voice Agent賽道,從來不缺故事。

2024年,GPT-4o橫空出世,全球科技圈集體高潮——「AI終於會説話了」。

緊接着,數以百計的Voice Agent創業公司如雨后春筍般冒出,融資消息一個接一個。

硅谷的投資人們畫了一個萬億級的大餅:AI語音智能體將重塑一切電話交互場景。

但到了2026年,畫風變了。

絕大多數通用Voice Agent,在實驗室里表現驚艷,到了真實業務里卻頻頻翻車——

聽不懂方言、扛不住噪音、一被打斷就「邏輯崩盤」、合規紅線踩了又踩。

尤其是金融、保險、醫療這些更復雜、專業的場景,通用方案几乎集體啞火。

就在行業還在糾結「Voice Agent到底能不能用」的時候,一家中國公司給出了答案。

通用方案水土不服,垂類需要「場景原生」

深耕汽車金融11年的易鑫,沒有去追「通用AI」的風口,而是扎進了最難啃的垂類場景。

為此,他們自研了一套「工業級」Voice Agent系統。

它集Multi-Agent協同架構、Turn-Taking模型、場景降噪引擎和多語言TTS大模型於一體。

要理解易鑫Voice Agent的價值,首先要理解一個殘酷的現實:通用AI方案在汽車金融面前幾乎是「裸考」。

業內大廠Voice Agent方案,大多是追求普適性與標準化——

在通用場景可以快速落地,但對汽車金融這類鏈路複雜、合規嚴苛、業務節點密集的垂直場景,適配度始終不足。

更現實的問題是,通用方案追求「播音員級」的優美音色,側重聽覺體驗,本質是「體驗優先」。

但在電銷場景里,一個聲音好聽但沒有「人味」、不懂業務的AI,反而讓客户秒掛。

易鑫的做法截然不同。

在表層,他們選用貼合車主溝通習慣的音色,適配方言場景;

但在深層,真正讓客户不掛電話的,是Agent不僅兼顧了親和力與合規嚴謹性,還學會了老電銷那種「先共情再辦事」的對話直覺。

核心目標只有一個:優化客户體驗,提升轉化率,實現「業務優先」的價值閉環。

這就是「通用適配」和「場景原生」的根本區別。

前者在試圖讓一把萬能鑰匙打開所有鎖,后者在為每一把鎖量身打造鑰匙。

把自由聊天,變成「精密流水線」

易鑫Voice Agent最核心的技術突破,是其基於文本的Multi-Agent協同架構。

這里有一個行業背景需要交代:目前絕大多數企業,哪怕是最簡單的單Agent方案,都不敢直接推上生產環境。

原因很簡單,通用Agent可控性差、工具調用不穩定、任務容錯率低。

一旦模型「自由發揮」,在金融合規場景里就是災難。

易鑫的解法是:把一通複雜的銷售電話,拆解成多個高度專注的「小任務」,分配給不同的Agent專項處理。

具體而言,系統部署了四大Agent板塊:問候與結束、資質確認、添加微信、諮詢問答。

每個Agent專注處理一個細分任務。這套架構的精妙之處,在於以下三個「硬核」設計:

第一,一個任務節點只管一件事。

汽車金融場景真實的電銷SOP包含身份確認、需求確認、資質確認、添加微信等一系列遞進環節。

如果把所有規則塞進一個巨大的Prompt里,大模型會瞬間「過載」,極易出現幻覺——不知道先干啥、容易聽錯話、或被客户一句話帶偏。

所以易鑫的做法是:把整個流程切成一個個任務節點。

每個任務節點只負責一件事,並且擁有獨立的指令、話術示例和工具集,AI被嚴格限定在當前任務範圍內——達不成目標,就無法進入下一個任務節點。

第二,流程走到哪一步,系統說了算。

一般來説,傳統做法是讓LLM自己判斷「接下來該干什麼」,比如輸出「關鍵詞」決定流程走向。

但這種方式極其脆弱,AI一旦「想岔了」,整個對話就跑偏了。

為此,易鑫專為流程流轉上一把「物理鎖」。具體來説:

每個任務節點完成后,Agent輸出了符合格式要求的結果,纔會被視為正確的「交接信號」,流程才能往下走。

不僅如此,系統在啟動時,就會強制校驗所有任務節點之間的跳轉關係是否真實存在。

如果某個節點指向了一個根本不存在的下游環節,直接報錯攔截。

AI想「自由發揮」,系統根本不給它機會。

第三,用户打斷時,AI不會「記混」。

電話里用户隨時可能打斷插話,這是常態。但對AI來説,這是個大麻煩。

普通單體文本Agent會把所有生成內容塞進記憶,導致后續業務邏輯錯亂。

易鑫的處理方式是,對話記錄不由模型自己管,而是交給外部框架統一管理——

當用户打斷時,系統只保留用户實際聽到的那部分內容,再追加用户的新輸入。

這樣,當流程從「破冰問候」推進到「資質確認」時,下一個任務節點拿到的對話記錄是乾乾淨淨、完整還原真實通話的,不會因為中途被打斷就記串了。

Multi-Agent協同架構把電銷從「不可控的自由對話」,變成了可追溯、可質檢、可合規、可複製、可運營優化的SOP。

這纔是Agent能進核心業務的前提。

讓AI選擇性失聰,掌握「説話的藝術」

如果説Multi-Agent架構是「大腦」,那降噪引擎和Turn-Taking模型就是「耳朵」和「嘴巴」。

要讓AI打好一通電話,第一步是聽得清,第二步纔是接得住。

先説「聽」,降噪引擎要解決的,是讓AI學會「選擇性失聰」。

真實電銷場景里,客户可能在地鐵上、馬路邊,甚至嘈雜的工地里接電話。

背景噪音經常讓AI產生「幻聽」:鳴笛聲、他人交談聲被錯誤識別為客户指令,產生大量「無效輪次」(Noise Rounds),直接干擾AI的決策邏輯,導致Voice Agent頻繁「亂插話」或「答非所問」。

易鑫AI團隊上線的場景適配降噪引擎,在兩個關鍵維度實現了突破:

低信噪比噪音消除率80%,將嘈雜環境的壓力分散到降噪模型,在最低限度損傷音頻的情況下,處理好絕大部分干擾AI決策的噪音。

同時,通過語義保真算法,確保主説話人的語音特徵完美保留,ASR識別準確率不降反升。

聽清楚了,下一個問題是:什麼時候該開口?

這正是Turn-Taking要解決的「對話節奏」問題。

在真實電話場景中,每個人的説話習慣千差萬別:有人語速極快,有人説一半停下來想想再繼續。

傳統方案,AI要麼在人還沒説完時就插嘴搶,要麼人説完了半天沒反應,兩種體驗都讓人想掛電話。

為此,易鑫自研的Yx-Turn預測模型,核心任務只有一個:判斷客户到底説完了沒有。

它同時聽兩樣東西。

一是聲學信號,包括客户的語氣、停頓、拖音等。

二是語義理解,比如客户説的話里有沒有「嗯…我想一下」、「那你看這樣行不行」這類未完待續的意思。

模型將每輪會話的交互狀態分為三種:發言結束(EOT)、繼續發言(CT)和掛起等待(WAIT),並通過三階段演進式數據構建策略,逐步從「不搶話」進化到「讀懂意圖」。

舉個例子,當用户説「等一下」時,系統識別為掛起狀態,迴應「好的,不着急」,保持收音不中斷,同時繼續等待客户后續發言。

更值得一提的是框架層的「兜底策略」。在全雙工對話中,用户隨時可能打斷AI。

易鑫採用了創新的消息合併策略:將未完成消息暫存至緩衝區,設置觀察等待期,若用户繼續表達,系統自動合併新舊消息,確保LLM基於完整上下文推理;若識別為無意發聲或噪聲,則自動過濾。

這徹底解決了傳統方案中「用户一打斷,AI就失憶」的尷尬。

這套機制還解決了行業公認的「幽靈回覆」(嗯、額、啊等語氣詞)難題,系統能精確區分用户是在隨聲附和,還是在給出答覆,不再因誤判導致邏輯跳步或搶話。

這項技術聽起來不夠「性感」,但在電銷場景里,它直接決定了用户願不願意繼續聽下去。

用易鑫高級算法工程師的話説,「我們的目標不是訓練一個技術最牛的模型,而是訓練一個最懂易鑫業務的模型」。

這種務實到骨子里的技術哲學,恰恰是易鑫Voice Agent能跑通生產環境的底層原因。

橫掃多種語言,劍指全球市場

Voice Agent的最后一塊拼圖,是語音合成(TTS)。

基於覆蓋全國340余個城市的業務網絡,易鑫自研TTS大模型已全面適配普通話,同時支持四川、天津、東北、河南、廣東、福建、湖南等多地主流方言。

更值得關注的是全球化佈局。

易鑫TTS已支持英語、西班牙語、葡萄牙語等主流語言,並針對日本、馬來西亞、新加坡、澳大利亞、墨西哥、巴西等核心出海市場進行了深度本地化定製,兼容多個小語種及變體,可覆蓋全球大部分主流汽車金融商業化語音場景。

這一成績離不開易鑫在技術層面的深耕。

為還原真人般的聲音,易鑫搭建了三層語音數據體系——標準語音數據、真實口語數據和專業錄音數據,讓模型聽足夠多樣、真實的聲音。

為深度貼合汽車金融業務特性,模型對專屬場景、專業術語、業務話術做了專項調優,使音色、情感、語調、語速和本土化適配等效果全面升級。

在訓練策略上,團隊引入GRPO強化學習方法進行后訓練:

從內容準確性、音色還原度、情感表現力、聽感自然度這四個維度由「AI評委」對合成的語音進行打分(獎勵),最后會匯總成一個綜合獎勵信號,驅動模型持續進化。

模型學會的不只是「怎麼説」,而是什麼時候、以什麼方式説,才最契合人類的情感邏輯。

Model + Harness,

一套真正能打的Voice Agent方法論

如果把上述技術能力拆開來看,每一項都有不少公司在做。

但易鑫Voice Agent真正的差異化,在於它背后的一套完整方法論:Model與Harness的深度結合。

英偉達CEO黃仁勛曾預言,AI Agent等AI技術將創造100萬億美元的市場。

但預言要落地,便需要這個關鍵公式:Agent = Model + Harness。

所謂Model,是指大模型本身的能力:語義理解、意圖識別、文本生成、語音合成。這是AI系統的「智力」。

所謂Harness,則是約束、駕馭和編排模型能力的工程化架構:結構化狀態機、防幻覺協議、外部記憶管理、合規流程門控、工具調用治理。這是AI系統的「紀律」。

在真實的生產環境里,一個沒有Harness約束的強模型,就像一匹沒有韁繩的野馬,跑得越快,翻車越狠。

在易鑫Voice Agent系統中,這個理念被貫徹到了每一個技術模塊:

自研Agentic大模型XinMM-AM1提供300億參數級的語義理解能力;

而全雙工交互框架、Multi-Agent協同架構、Turn-Taking模型和降噪引擎等模塊,共同構成了Harness體系。

易鑫是一家AI驅動的金融科技平臺,2017年在香港上市,2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣,全球擁有員工5000多人,核心產品為Agentic AI解決方案,深度賦能汽車金融全鏈路。Voice Agent是易鑫Agentic AI解決方案的關鍵拼圖,可應用於電銷、預審、客服等多個場景。

兩者融合,才把不可控的LLM變成了聽指揮、守紀律、能實戰的生產級數字員工。

同時,這套Voice Agent還調用了豐富的「金融專屬工具」——線索質量覈查、渠道風險識別、網絡化欺詐識別、欺詐聲紋檢測、情緒分析、流程合規檢測,以及加微申請、短信發送、知識庫檢索等通用工具。

Model負責「想」,Harness負責「管」,工具鏈負責「干」——

三位一體,纔是工業級Voice Agent的完整形態。

實戰數據亮眼

所有技術敍事的終點,都指向一個朴素的問題:效果到底怎麼樣?

易鑫Voice Agent交出的成績單足夠硬氣:

接通率媲美人工坐席,加微成功率超越人工。

在電銷場景中,「接通」只是起點,真正有價值的動作是把線索轉化為合規的私域客户。

這意味着,后續可以持續觸達、深度運營。

易鑫Voice Agent的接通加微轉化率可達20%以上,這個數字在行業里已屬前列。

跨多個會話連續推進,線索流失率大幅下滑。

傳統電銷最大的痛點之一是線索跟進不及時、不連續——人工坐席忙不過來、跟進節奏不穩定、記錄不完整。

易鑫Voice Agent能夠及時、持續追蹤每一條線索,效率大幅提升。

更讓人興奮的是落地速度:這套系統專為汽車金融全場景定製,支持低代碼快速部署。

而且其模塊化架構天然支持場景遷移,80%的流程不變,只需替換20%的業務節點,就能快速適配新業務線。

未來,這套方案還將向泛金融領域延伸,為保險、銀行等場景提供同級別的智能語音解決方案。

有用,纔是最高級的技術

回過頭看,Voice Agent賽道的競爭格局已經日漸清晰:通用方案追求廣度,垂類方案追求深度。

而在汽車金融這個合規嚴苛、鏈路複雜、專業性極強的戰場上,「廣度」解決不了任何真實問題。

易鑫用11年的行業沉澱,證明了一件事:

真正的工業級AI,從來不是模型參數的軍備競賽,而是對業務的深刻理解與工程化能力的深度融合。

當行業還在爭論Voice Agent的技術路線時,易鑫已經在真實的生產線上,用每一通電話、每一個轉化數字,定義着「場景原生」AI的行業標準。

有用,纔是最高級的技術。而易鑫正在證明,這句話不是口號。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。