熱門資訊> 正文
2026-06-17 08:08
京東團隊即將開源視覺語言實時交互模型JoyAI-VL-Interaction。記者從一份在開源社區和海外AI技術圈受到關注的技術報告獲悉,JoyAI-VL-Interaction把多模態大模型從"一問一答",推進到"實時流式交互",適合需要AI持續在場的場景。報告將JoyAI-VL-Interaction與豆包、Gemini 的App內視頻通話助手進行了人工評測,覆蓋監控預警、實時計數、實時翻譯、時間感知、直播解説和引導、長程記憶六類場景。在58個案例中,JoyAI-VL-Interaction對豆包的總體勝率為77.6%,對Gemini的總體勝率為87.9%。其中,在監控預警場景中,對兩個基線均取得100%勝率。