繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

京東即將開源視覺語言實時交互模型

2026-06-17 08:08

京東團隊即將開源視覺語言實時交互模型JoyAI-VL-Interaction。記者從一份在開源社區和海外AI技術圈受到關注的技術報告獲悉,JoyAI-VL-Interaction把多模態大模型從"一問一答",推進到"實時流式交互",適合需要AI持續在場的場景。報告將JoyAI-VL-Interaction與豆包、Gemini 的App內視頻通話助手進行了人工評測,覆蓋監控預警、實時計數、實時翻譯、時間感知、直播解説和引導、長程記憶六類場景。在58個案例中,JoyAI-VL-Interaction對豆包的總體勝率為77.6%,對Gemini的總體勝率為87.9%。其中,在監控預警場景中,對兩個基線均取得100%勝率。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。