獨家|京東即將開源視覺語言實時交互模型從「一問一答」走向「邊看邊説」

2026-06-17 09:20

《科創板日報》6月17日訊（記者黃心怡）《科創板日報》記者獨家獲悉，京東團隊即將於近期開源視覺語言實時交互模型JoyAI-VL-Interaction。

《科創板日報》記者從一份在開源社區和海外AI技術圈受到關注的技術報告獲悉，該模型想解決的問題，不只是讓模型更會"看視頻"，而是讓模型能夠通過攝像頭等實時視頻流持續觀察現實世界，並自己判斷什麼時候該回應、什麼時候該保持沉默、以及什麼時候把任務委託給后臺agent。換句話説，它試圖把多模態大模型從傳統的"一問一答"，推進到"實時流式交互"。

值得一提的是，這個方向並非京東一家在押注。上個月，海外的 Thinking Machines Lab(TML)也提出了"interaction model"的概念，認為自主交互性應當成為模型自身的能力而被獨立 scaling。兩個團隊幾乎在同一時間走到了相同的技術方向和戰略判斷上，這本身就説明"從輪次制走向交互式"是一個時機已到的趨勢。不同的是，TML 目前放出的是一個 research preview，而京東選擇了把模型、數據、訓練方法和完整系統全部開源。

今天大多數多模態模型仍然是輪次制的：用户上傳圖片或視頻，再提出問題，模型纔開始回答。但很多真實場景並不是這樣發生的。比如，監控畫面里突然出現火情，老人摔倒，直播中商品快速閃過，視頻通話里用户狀態發生變化。這些時刻一旦錯過，就很難補救。模型如果只能等用户提問，往往已經慢了一步。JoyAI-VL-Interaction 的核心思路是：讓模型像人一樣持續"在場"，邊看、邊記、邊判斷，並在關鍵時刻主動迴應。

值得注意的是，JoyAI-VL-Interaction 並不只是一個單獨模型。報告稱，京東計劃開源模型權重、交互數據、訓練方法和完整系統。系統支持攝像頭、直播流、監控流等輸入，也包括語音輸入輸出、可視化界面、長期記憶和后臺模型接口。也就是説，開發者不只是能研究模型，還可以直接搭建一個能夠看視頻流、做判斷、主動交互的實時 AI 助手。

報告還將 JoyAI-VL-Interaction 與豆包、Gemini 的 App 內視頻通話助手進行了人工評測。評測覆蓋六類場景：監控預警、實時計數、實時翻譯、時間感知、直播解説和引導、長程記憶。

在58個案例中，JoyAI-VL-Interaction 對豆包的總體勝率為 77.6%，對 Gemini 的總體勝率為 87.9%。其中，在監控預警場景中，對兩個基線均取得100%勝率。

這類模型適合需要AI持續在場的場景，例如安防監控場景，火情、摔倒、異常行為提醒，老人和小孩看護場景，電商購物、直播運營、賽事解説、以及 AI 眼鏡和無障礙輔助等場景。

報告也提到，JoyAI-VL-Interaction 目前是8B規模模型。相比豆包、Gemini 背后的更大模型和持續的產品迭代，它在通用知識、長尾場景、表達豐富度和穩定性上未必佔優。此外，訓練數據也還有繼續擴展和清洗空間。評測仍處於早期階段，還未展開大規模系統性評估。

不過，報告也將此視為一個積極信號：即便在當前的數據規模下，模型就已經展現出不錯的交互能力，並觀察到特定的能力涌現。這説明將交互性訓進模型這條路數據效率很高，因此開源出來和社區一起探究不同的應用落地場景，以推動interaction models這一研究方向的發展。

過去，大模型主要比拼參數、知識和推理能力。但在真實世界里，一個AI助手是否有用，還取決於它能不能持續觀察、判斷時機，並在該説話時及時出現。如果JoyAI-VL-Interaction 按計劃開源模型、數據和系統，它可能會成為國內多模態開源領域一個值得關注的新方向：從離線視頻理解，走向實時流式交互。

獨家|京東即將開源視覺語言實時交互模型 從「一問一答」走向「邊看邊説」

推薦文章

港股周報 | 劍指萬億市值！智譜周內漲狂飆逾90%再創新高；建滔「雙雄」周內再升逾40%；小紅書計劃年底前赴港上市

一周財經日曆 | 英偉達股東大會來襲！黃仁勛或再給利好；中科聞歌等9只新股招股中；美光、攜程下周放榜

美股前瞻 | 特朗普：半導體產業需要回歸美國本土；存儲盤前狂飆！機構大幅上調內存價格預期

打新攻略 | IPO井噴！21只新股扎堆來襲！下一隻「大肉籤」在哪兒？（附一圖新股預告）

華盛早報 | 特朗普放話已簽署美伊諒解備忘錄！沃什首秀「放鷹」！年內加息概率達100%；市監總局出手，將整治外賣平臺「內卷」

美股前瞻 | 凌晨兩點！沃什美聯儲首秀正式揭幕；大空頭Burry最新發聲：很想做空SpaceX！

上市僅3日SpaceX暴漲49%！華爾街估值分歧跨度超3倍：是星辰大海還是估值泡沫？

華盛早報 | 北水年內搶籌港股超3000億港元！布油三個月來首次跌破80美元；DeepSeek首次融資落地，估值超3300億元

獨家|京東即將開源視覺語言實時交互模型從「一問一答」走向「邊看邊説」