熱門資訊> 正文

聲網劉斌：「Her」真正落地實現離不開RTE能力的支撐｜MEET 2025

2024-12-26 22:42

大模型正在改變實時互動技術。

聲網作為全球音視頻技術龍頭，2020年在納斯達克上市，目前是全球最大的實時互動雲服務商，平臺單月音視頻使用時長達700億分鍾。

同時，聲網兄弟公司Agora也是OpenAI Realtime API的合作伙伴，在國內聲網也與MiniMax正在打磨國內首個Realtime API。

在MEET 2025智能未來大會大會現場，聲網首席運營官劉斌分享了一個看似離大模型有點距離，實則卻不可或缺的環節：

RTE（Real Time Engagement）在AI Agent時代的全新價值。

爲了完整體現劉斌的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啓發。

MEET 2025智能未來大會是由量子位主辦的行業峰會，20余位產業代表與會討論。線下參會觀眾1000+，線上直播觀眾320萬+，獲得了主流媒體的廣泛關注與報道。

核心觀點

演講全文

今天非常高興有這樣機會來到現場跟分享，聲網作為RTE領域的企業，和AI領域的大模型與應用廠商，和當下的大模型關係是什麼，RTE演進如何助力AI Agent應用落地。

第一，聲網到底是誰。

聲網於2020年在納斯達克上市，專注於提供實時互動雲服務。經過多年的發展，該公司在該行業取得了一定的進步。

我們公司的口號簡潔明瞭，即讓實時互動像空氣和水一樣，無處不在。

這一理念旨在實現未來無論身處何地，都能獲得如同面對面般的互動體驗。經過多年的努力，我們在市場佔有率方面位居第一，並擁有大量註冊開發者應用。

單月音視頻分鍾數約為700億，這意味着每天在我們平臺上的分鍾數約為20多億。在這種情況下，全球超過60%的泛娛樂應用選擇聲網作為其合作伙伴。我們涉及的領域包括泛娛樂、教育和物聯網等，均擁有相應的合作伙伴。

第二，我們做的事到底和AI Agent有什麼關係，如何去助力它。

首先，值得關注的是，OpenAI於10月1日在官方網站發佈Realtime API時，曾在合作伙伴中提及Agora，即我們聲網的兄弟公司。

其次，在10月份的RTE大會上，我們宣佈與MiniMax正在打磨國內第一個Realtime APl。

第三，AI Agent時代到底怎麼樣做才能做的更好。

我們可以觀察到，在真正多模態模型推出或對話時，相較於原先的純文本交互，已經發生了變化。

原先的交互本質上是異步的，即我可以發送信息，説完后等待處理並返回結果。然而，在真正多模態交互中，要求實時性和雙工性，即我説他聽，他聽完后我再聽。

在這個過程中，有幾個關鍵因素會影響效果。

首先，大家較為熟悉的語氣、情感、情緒和口音等因素在模型中得到了大量處理。

其次，延迟也是一個非常重要的因素。相信大家都有相關的感受。

從實際測量數據來看，真正達到實用效果的延迟一般在1.7秒左右。如果低於這個值，人們會覺得與Agent交流很自然；而如果延迟達到2秒多或3秒，人們就會感覺到有些卡頓，反應稍顯迟緩。這是一個非常重要的關鍵點。

另一個關鍵點是，能否實現打斷功能以及如何更好地進行主動交互。

要實現這些功能，除了模型能力外，還需考慮應用的落地方式。是在實驗室的PC上進行演示，還是將其應用於各種手機終端、物聯網終端以及其他設備上？

當有此需求時，在產品化落地的過程中會發現，除了之前提到的低時延等能力外，還需要在端到端都能實現。此外，還需在不同地點、不同網絡環境下以及各種終端設備上都能得到支持，這並非易事。

關於這張圖，儘管大家可能不太關注，但我們當時非常重視。這是5月份OpenAI GPT-4o發佈時的情況，大家可以看那根網線，這是要保證網絡的穩定性。

在4o發佈之后，大家都在等待API的推出，原本預期一周或兩周內會推出，但實際上並非如此，直至10月份才發佈。原因在於，一開始大家認為這件事很簡單，只需對原有的RTP Server進行修改，將文本傳輸改為語音傳輸即可。

然而，實際情況並非如此簡單。我們與他們合作，直至10月份才正式推出。正是我們在其中發揮作用，使其真正落地實現。

在此，我向大家展示聲網多年來的工作成果。

首先，我們擁有一張遍佈全球的SD-RTN網絡，確保在這張網絡上音視頻傳輸都能在標準的400毫秒內端到端到達，這是網絡支撐。其次，我們多年的積累使我們能夠在30多個平臺的框架和30000多終端機型上提供SDK支持，涵蓋各種操作系統。您只需很快地建立這個能力。包括物聯網的各種設備終端，都有相應的SDK。

此外，在實際應用中，如我們在這個會場，如果我要與AI對話，網絡情況和環境噪聲並非固定不變。如何在極端弱網下保證效果，這也是我們多年技術積累的結果。

正是我們在這一領域的深厚積累，使得我們能夠構建一個具有實際應用價值的Voice對話Agent。只有將這兩者緊密結合，才能實現這一目標。這也解釋了為什麼在發佈Realtime API時，我們需要尋找這樣的合作伙伴共同推進。

我們還發現，現有的RTC技術棧和基礎設施存在大量改進空間。只有通過改進，大型模型纔有可能在各種場景、形態和模型下大規模參與到人類的語言對話中，其參與來源也將從雲端擴展到終端，再到更低延迟的邊緣。基於這些能力的改進和普及，未來RTE必將成為生成式AI時代AI基礎設施（AI Infra）的關鍵組成部分。

如圖右側紅色部分所示，Realtime API通常由大型模型廠商發佈。然而，在左側這一圈，包括中間的網絡和聲網的Linux Server SDK，以及前端的SDK，如果沒有這樣的基礎，我們將很難實現這一整套效果。這正是我之前所解釋的原因。如果中間的這些環節未能實現，那麼效果將無法顯現。

在此，我們將從當前視角出發，探討未來的行動方向以及如何進一步提升效果。近期，我們一直在深入研究和投入資源，以優化人與人之間的對話體驗。然而，在人與模型之間的對話中，體驗的提升需要充分考慮模型的特性。

例如，我們從傳統的QoS、QoE發展到如今的AI QoE，乃至多模態AI QoE，這其中涵蓋了VAD技術、噪音消除能力以及相關網絡優化等方面。這些新的方法和方式使得我們與模型的對話更加貼近實際情況。以一個簡單的例子來説明，人與人交談時不會夾雜其他信息，但人與模型對話時則可能不同，語音傳輸過程中可能還包含其他信息。因此，在弱網環境和應用場景中如何實現良好適配，便顯得尤為重要。

我們曾在RTE大會上展示過一個實例，當時的會場規模較大，人數眾多且環境嘈雜，我們在現場使用了一個5G設備進行演示。

我們想做到的是從60分提升到90分，這不僅涉及模型難度的提高，還包括周邊工程配套的完善，以便將產品從演示階段發展爲更具實用性的應用。

關於聲網的產品體系，我們正不斷加強其功能，如Linux SDK、AI VAD能力以及AI Agent Service的補充與優化。通過聲網RTE+AI能力全景圖，我們可以看到我們的整體思路，包括從基礎設施到Agent，再到場景的演進，旨在成為生成式AI時代的AI基礎設施，這也是我們的願景。

最后，我想強調一點：

任何涉及大模型多模態實時交互的應用，無論是語音還是視頻，只要存在多模態交互，這類Agent應用的落地都離不開RTC技術的支持。

在這種情況下，如果大家有這樣的需求，請來找聲網，我們一定給大家更好的體驗。

謝謝大家，今天就到這里。

聲網劉斌：「Her」真正落地實現離不開RTE能力的支撐｜MEET 2025

推薦文章

華盛早報 | 存儲集體暴跌！韓媒曝英偉達Rubin產量預期下調；谷歌將躋身道指成分股；美銀力挺AI牛市至2028年

美股異動 | 科技股全線暴跌！閃迪跌超13%，美光跌超8%，邁威爾科技跌超5%

美股前瞻 | 科技股遭拋售潮！納指期貨盤前大跌2.5%；SpaceX連跌三天獲「木頭姐」狂買3200萬美元；機構稱美聯儲年內加息可能較低

新股申購 | 安克創新H股今起招股！一手入場費10032.16港元

華盛早報 | 股價三連跌市值蒸發超6000億美元！SpaceX再重挫16%；港股「ETF之王」易主！南方兩倍做多海力士年內累漲逾10倍

美股前瞻 | 萬斯稱美伊談判取得積極進展！SpaceX首度發行無抵押債券，盤前一度大跌近6%；聯電據報將與英特爾合作開發3nm芯片

「AI 教父」痛批馬斯克旗下xAI堪稱失敗，警示AI將迎巨大泡沫破裂！

美聯儲如期按兵不動，但鷹派明顯！預期年底前將加息25個基點