熱門資訊> 正文
2023-09-19 13:05
隨着秋季的臨近,谷歌和OpenAI展開一場軟件競賽,旨在推出下一代「多模態(multimodal)」大型語言模型(LLM)。
這些多模態模型可以處理圖像和文本,例如,用户只需要給該模型發送一張網頁草圖,該模型就可以為網站生成代碼,或者向用户提供可視圖表的文本分析。
此前有報道稱,谷歌正在接近這個目標,它已經與一小部分外部公司分享了其即將推出的Gemini多模態大型語言模型。
但是如今,OpenAI似乎想要搶在谷歌之前發佈。據知情人士透露,這家人工智能初創公司正將其最先進的大型語言模型GPT-4與多模態功能相結合,這個更強大的多模態模型代號為Gobi。
一場較量即將展開
與GPT-4不同,Gobi從一開始就被設計為多模式,不過似乎OpenAI公司目前還沒開始訓練這個模型。
此外,隨着關於GPT-5的傳言逐漸傳播開來,人們開始好奇Gobi是否就是GPT-5,不過有分析人士稱,現在就下定論還為時過早。
谷歌那邊怎麼樣呢?考慮到谷歌擁有與文本、圖像、視頻和音頻相關的專有數據(包括來自搜索和YouTube等消費產品的數據),這一優勢將有利於谷歌向多模態模型的推動。
一位使用過Gemini早期版本的人士透露,與現有的模型相比,Gemini似乎產生的錯誤答案更少。
無論如何,這場競賽類似於人工智能版的蘋果與安卓之爭。而Gemini的到來將揭示谷歌和OpenAI之間的差距到底有多大。
對惡意使用的考量
OpenAI此前在3月份發佈GPT-4時曾預展示了多模態功能,但除了一家名為「Be My Eyes」的公司外,其沒有向其他公司開放。Be My Eyes是一家為盲人或視力低下的人提供技術的公司。
六個月后,OpenAI公司準備在更大範圍內推出被稱為GPT-Vision的功能。據悉,OpenAI可能會在GPT-Vision之后再推出Gobi。
為什麼隔了這麼長時間才推出?信息安全問題是一個主要的考量因素。
OpenAI主要是擔心新的視覺功能會被惡意利用,比如通過自動解決驗證碼來冒充人類,或者通過面部識別來跟蹤人。但如今,OpenAI的工程師們似乎已經接近於解決圍繞這項新技術的法律擔憂。
谷歌也有同樣的困擾。不過對於大模型被惡意使用或濫用的問題,谷歌給出的回答是,該公司在7月份就做出了一系列承諾,以確保其所有產品都被負責任地開發。