繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

阿里雲AI新品「通義聽悟」開放公測:自動提取PPT和做筆記,已嵌入多個應用

2023-06-01 17:15

隨着AI大模型技術落地,AI應用正如雨后春筍般不斷出現。

6月1日,阿里雲宣佈通義大模型新進展,AI音視頻新品「通義聽悟」正式上線,並且正式開啟公測。

通義聽悟是基於阿里雲通義千問大模型開發的AI應用,主要針對音視頻內容進行轉寫、檢索、摘要和整理,比如用大模型自動做筆記、整理訪談、提取PPT等。

事實上,通義聽悟的前身是阿里雲內部一個名為「聽悟」的產品,主要功能包括實時會議、音頻轉寫功能,「聽悟」自2022年年底就開始小範圍內測。

通義聽悟

不同於傳統的實時會議速記轉寫,如今面向C端提供視頻轉寫服務的應用尚在少數。而如今的通義聽悟,則從純粹的音頻轉寫,延伸到了音視頻領域,融合了十多項AI新功能。

阿里雲智能CTO周靖人表示,聽悟集成了阿里最先進的語音和語言技術,比如,阿里新一代工業級語音識別模型——其識別準確率在多個權威中文數據集上名列第一。融合自研語音語義多模態説話人算法后,聽悟能對10人以上説話場景進行角色區分。如今有了通義千問大模型的能力,聽悟也能夠對上萬字的音視頻內容進行摘要總結。

在聽悟中,用户可以將視頻/音頻上傳,完成錄音轉寫。根據36氪的體驗,在音頻轉寫速度上,聽悟的處理速度不錯——對1-2小時的音頻,聽悟一般在數分鍾內就能轉寫完畢。

音頻轉寫完畢后,聽悟還能夠做到中英對照翻譯,還能夠一鍵總結會議要點,劃分章節、區分不同發言人的觀點、整理待辦事項等等。

根據阿里雲,通義聽悟未來還有更多基於大模型的功能上線。比如,對視頻中出現的PPT,AI能夠基於通義千問大模型做到一鍵提取,而用户也能向AI助手針對多個音視頻內容進行提問、讓聽悟概括特定段落等等。

值得注意的是,聽悟目前針對一些細分場景中提供了不同的部署形態,如瀏覽器插件。在Chrome安裝聽悟插件后,聽悟在無字幕視頻中就可以實時生成雙語懸浮字幕。二轉寫結果可下載為字幕文件,方便新媒體從業者視頻后期製作。

通義千問Chrome插件示意圖,近期該功能將上線

在會上,阿里雲也介紹了幾個已經落地的應用場景。

比如,在阿里雲盤中,用户可以一鍵轉寫雲盤中的文件,在雲盤內在線播放視頻時,能夠實時生成字幕。

而釘釘的在線會議模塊「釘閃記」,同樣集成了聽悟。在會議結束后,釘閃記所能夠輸出的也不再是純粹的速記,而是包含重點摘要的完整文檔,可以有效地提升公司內部工作效率。甚至,在開會時,AI可以代為記錄會議、整理要點。

聽悟會以個人版和企業版兩種形式提供服務,未來一段時間就將在夸克APP、阿里雲盤等端口提供服務。據阿里雲,聽悟企業版當前已在阿里集團內部被廣泛使用,幫助減少了大量會議記錄和整理的工作。

在定價上,聽悟也跟隨阿里雲近期的大降價策略。在公測期間,用户可領取100小時以上聽悟免費轉寫時長。聽悟用户可通過每日登陸、官方微博、微信及各大平臺社區領取口令碼,用户的福利權益可累積,一年內有效。

從通義聽悟的發佈可以看出,國內大模型廠商除了在底層大模型搭建上快馬加鞭外,AI應用也已經成為他們必須抓住的機遇——AI音視頻轉寫、內容理解等功能,背后意味着通用能力,廠商們可以覆蓋包括開會、上課、培訓、面試、直播、看視頻、聽播客等音視頻場景,嵌入到不同的應用軟件當中。

免責聲明:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,亦並非旨在提供任何投資意見。有關內容不構成任何專業意見、買賣任何投資產品或服務的要約、招攬或建議。本頁面的內容可隨時進行修改,而本公司毋須另作通知。本公司已盡力確保以上所載之數據及內容的準確性及完整性,如對上述內容有任何疑問,應徵詢獨立的專業意見,本公司不會對任何因該等資料而引致的損失承擔任何責任。以上內容未經香港證監會審閲。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。