熱門資訊> 正文
2026-06-17 09:20
《科創板日報》6月17日訊(記者 黃心怡)《科創板日報》記者獨家獲悉,京東團隊即將於近期開源視覺語言實時交互模型JoyAI-VL-Interaction。
《科創板日報》記者從一份在開源社區和海外AI技術圈受到關注的技術報告獲悉,該模型想解決的問題,不只是讓模型更會"看視頻",而是讓模型能夠通過攝像頭等實時視頻流持續觀察現實世界,並自己判斷什麼時候該回應、什麼時候該保持沉默、以及什麼時候把任務委託給后臺agent。換句話説,它試圖把多模態大模型從傳統的"一問一答",推進到"實時流式交互"。
值得一提的是,這個方向並非京東一家在押注。上個月,海外的 Thinking Machines Lab(TML)也提出了"interaction model"的概念,認為自主交互性應當成為模型自身的能力而被獨立 scaling。兩個團隊幾乎在同一時間走到了相同的技術方向和戰略判斷上,這本身就説明"從輪次制走向交互式"是一個時機已到的趨勢。不同的是,TML 目前放出的是一個 research preview,而京東選擇了把模型、數據、訓練方法和完整系統全部開源。
今天大多數多模態模型仍然是輪次制的:用户上傳圖片或視頻,再提出問題,模型纔開始回答。但很多真實場景並不是這樣發生的。比如,監控畫面里突然出現火情,老人摔倒,直播中商品快速閃過,視頻通話里用户狀態發生變化。這些時刻一旦錯過,就很難補救。模型如果只能等用户提問,往往已經慢了一步。JoyAI-VL-Interaction 的核心思路是:讓模型像人一樣持續"在場",邊看、邊記、邊判斷,並在關鍵時刻主動迴應。
值得注意的是,JoyAI-VL-Interaction 並不只是一個單獨模型。報告稱,京東計劃開源模型權重、交互數據、訓練方法和完整系統。系統支持攝像頭、直播流、監控流等輸入,也包括語音輸入輸出、可視化界面、長期記憶和后臺模型接口。也就是説,開發者不只是能研究模型,還可以直接搭建一個能夠看視頻流、做判斷、主動交互的實時 AI 助手。
報告還將 JoyAI-VL-Interaction 與豆包、Gemini 的 App 內視頻通話助手進行了人工評測。評測覆蓋六類場景:監控預警、實時計數、實時翻譯、時間感知、直播解説和引導、長程記憶。
在58個案例中,JoyAI-VL-Interaction 對豆包的總體勝率為 77.6%,對 Gemini 的總體勝率為 87.9%。其中,在監控預警場景中,對兩個基線均取得100%勝率。
這類模型適合需要AI持續在場的場景,例如安防監控場景,火情、摔倒、異常行為提醒,老人和小孩看護場景,電商購物、直播運營、賽事解説、以及 AI 眼鏡和無障礙輔助等場景。
報告也提到,JoyAI-VL-Interaction 目前是8B規模模型。相比豆包、Gemini 背后的更大模型和持續的產品迭代,它在通用知識、長尾場景、表達豐富度和穩定性上未必佔優。此外,訓練數據也還有繼續擴展和清洗空間。評測仍處於早期階段,還未展開大規模系統性評估。
不過,報告也將此視為一個積極信號:即便在當前的數據規模下,模型就已經展現出不錯的交互能力,並觀察到特定的能力涌現。這説明將交互性訓進模型這條路數據效率很高,因此開源出來和社區一起探究不同的應用落地場景,以推動interaction models這一研究方向的發展。
過去,大模型主要比拼參數、知識和推理能力。但在真實世界里,一個AI助手是否有用,還取決於它能不能持續觀察、判斷時機,並在該説話時及時出現。如果JoyAI-VL-Interaction 按計劃開源模型、數據和系統,它可能會成為國內多模態開源領域一個值得關注的新方向:從離線視頻理解,走向實時流式交互。