繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

聲網劉斌:「Her」真正落地實現離不開RTE能力的支撐|MEET 2025

2024-12-26 22:42

大模型正在改變實時互動技術。

聲網作為全球音視頻技術龍頭,2020年在納斯達克上市,目前是全球最大的實時互動雲服務商,平臺單月音視頻使用時長達700億分鍾。

同時,聲網兄弟公司Agora也是OpenAI Realtime API的合作伙伴,在國內聲網也與MiniMax正在打磨國內首個Realtime API。

在MEET 2025智能未來大會大會現場,聲網首席運營官劉斌分享了一個看似離大模型有點距離,實則卻不可或缺的環節:

RTE(Real Time Engagement)在AI Agent時代的全新價值。

爲了完整體現劉斌的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啓發。

MEET 2025智能未來大會是由量子位主辦的行業峰會,20余位產業代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關注與報道。

核心觀點

演講全文

今天非常高興有這樣機會來到現場跟分享,聲網作為RTE領域的企業,和AI領域的大模型與應用廠商,和當下的大模型關係是什麼,RTE演進如何助力AI Agent應用落地。

第一,聲網到底是誰。

聲網於2020年在納斯達克上市,專注於提供實時互動雲服務。經過多年的發展,該公司在該行業取得了一定的進步。

我們公司的口號簡潔明瞭,即讓實時互動像空氣和水一樣,無處不在

這一理念旨在實現未來無論身處何地,都能獲得如同面對面般的互動體驗。經過多年的努力,我們在市場佔有率方面位居第一,並擁有大量註冊開發者應用。

單月音視頻分鍾數約為700億,這意味着每天在我們平臺上的分鍾數約為20多億。在這種情況下,全球超過60%的泛娛樂應用選擇聲網作為其合作伙伴。我們涉及的領域包括泛娛樂、教育和物聯網等,均擁有相應的合作伙伴。

第二,我們做的事到底和AI Agent有什麼關係,如何去助力它。

首先,值得關注的是,OpenAI於10月1日在官方網站發佈Realtime API時,曾在合作伙伴中提及Agora,即我們聲網的兄弟公司。

其次,在10月份的RTE大會上,我們宣佈與MiniMax正在打磨國內第一個Realtime APl。

第三,AI Agent時代到底怎麼樣做才能做更好。

我們可以觀察到,在真正多模態模型推出或對話時,相較於原先的純文本交互,已經發生了變化。

原先的交互本質上是異步的,即我可以發送信息,説完后等待處理並返回結果。然而,在真正多模態交互中,要求實時性和雙工性,即我説他聽,他聽完后我再聽。

在這個過程中,有幾個關鍵因素會影響效果。

首先,大家較為熟悉的語氣、情感、情緒和口音等因素在模型中得到了大量處理。

其次,延迟也是一個非常重要的因素。相信大家都有相關的感受。

從實際測量數據來看,真正達到實用效果的延迟一般在1.7秒左右。如果低於這個值,人們會覺得與Agent交流很自然;而如果延迟達到2秒多或3秒,人們就會感覺到有些卡頓,反應稍顯迟緩。這是一個非常重要的關鍵點。

另一個關鍵點是,能否實現打斷功能以及如何更好地進行主動交互。

要實現這些功能,除了模型能力外,還需考慮應用的落地方式。是在實驗室的PC上進行演示,還是將其應用於各種手機終端、物聯網終端以及其他設備上?

當有此需求時,在產品化落地的過程中會發現,除了之前提到的低時延等能力外,還需要在端到端都能實現。此外,還需在不同地點、不同網絡環境下以及各種終端設備上都能得到支持,這並非易事。

關於這張圖,儘管大家可能不太關注,但我們當時非常重視。這是5月份OpenAI GPT-4o發佈時的情況,大家可以看那根網線,這是要保證網絡的穩定性。

在4o發佈之后,大家都在等待API的推出,原本預期一周或兩周內會推出,但實際上並非如此,直至10月份才發佈。原因在於,一開始大家認為這件事很簡單,只需對原有的RTP Server進行修改,將文本傳輸改為語音傳輸即可。

然而,實際情況並非如此簡單。我們與他們合作,直至10月份才正式推出。正是我們在其中發揮作用,使其真正落地實現

在此,我向大家展示聲網多年來的工作成果。

首先,我們擁有一張遍佈全球的SD-RTN網絡,確保在這張網絡上音視頻傳輸都能在標準的400毫秒內端到端到達,這是網絡支撐。其次,我們多年的積累使我們能夠在30多個平臺的框架和30000多終端機型上提供SDK支持,涵蓋各種操作系統。您只需很快地建立這個能力。包括物聯網的各種設備終端,都有相應的SDK。

此外,在實際應用中,如我們在這個會場,如果我要與AI對話,網絡情況和環境噪聲並非固定不變。如何在極端弱網下保證效果,這也是我們多年技術積累的結果。

正是我們在這一領域的深厚積累,使得我們能夠構建一個具有實際應用價值的Voice對話Agent。只有將這兩者緊密結合,才能實現這一目標。這也解釋了為什麼在發佈Realtime API時,我們需要尋找這樣的合作伙伴共同推進。

我們還發現,現有的RTC技術棧和基礎設施存在大量改進空間。只有通過改進,大型模型纔有可能在各種場景、形態和模型下大規模參與到人類的語言對話中,其參與來源也將從雲端擴展到終端,再到更低延迟的邊緣。基於這些能力的改進和普及,未來RTE必將成為生成式AI時代AI基礎設施(AI Infra)的關鍵組成部分。

如圖右側紅色部分所示,Realtime API通常由大型模型廠商發佈。然而,在左側這一圈,包括中間的網絡和聲網的Linux Server SDK,以及前端的SDK,如果沒有這樣的基礎,我們將很難實現這一整套效果。這正是我之前所解釋的原因。如果中間的這些環節未能實現,那麼效果將無法顯現。

在此,我們將從當前視角出發,探討未來的行動方向以及如何進一步提升效果。近期,我們一直在深入研究和投入資源,以優化人與人之間的對話體驗。然而,在人與模型之間的對話中,體驗的提升需要充分考慮模型的特性。

例如,我們從傳統的QoS、QoE發展到如今的AI QoE,乃至多模態AI QoE,這其中涵蓋了VAD技術、噪音消除能力以及相關網絡優化等方面。這些新的方法和方式使得我們與模型的對話更加貼近實際情況。以一個簡單的例子來説明,人與人交談時不會夾雜其他信息,但人與模型對話時則可能不同,語音傳輸過程中可能還包含其他信息。因此,在弱網環境和應用場景中如何實現良好適配,便顯得尤為重要。

我們曾在RTE大會上展示過一個實例,當時的會場規模較大,人數眾多且環境嘈雜,我們在現場使用了一個5G設備進行演示。

我們想做到的是從60分提升到90分,這不僅涉及模型難度的提高,還包括周邊工程配套的完善,以便將產品從演示階段發展爲更具實用性的應用。

關於聲網的產品體系,我們正不斷加強其功能,如Linux SDK、AI VAD能力以及AI Agent Service的補充與優化。通過聲網RTE+AI能力全景圖,我們可以看到我們的整體思路,包括從基礎設施到Agent,再到場景的演進,旨在成為生成式AI時代的AI基礎設施,這也是我們的願景。

最后,我想強調一點:

任何涉及大模型多模態實時交互的應用,無論是語音還是視頻,只要存在多模態交互,這類Agent應用的落地都離不開RTC技術的支持。

在這種情況下,如果大家有這樣的需求,請來找聲網,我們一定給大家更好的體驗。

謝謝大家,今天就到這里。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。