新較量即將展開！OpenAI試圖搶在谷歌Gemini前發佈多模態模型

2023-09-19 13:05

隨着秋季的臨近，谷歌和OpenAI展開一場軟件競賽，旨在推出下一代「多模態（multimodal）」大型語言模型（LLM）。

這些多模態模型可以處理圖像和文本，例如，用户只需要給該模型發送一張網頁草圖，該模型就可以為網站生成代碼，或者向用户提供可視圖表的文本分析。

此前有報道稱，谷歌正在接近這個目標，它已經與一小部分外部公司分享了其即將推出的Gemini多模態大型語言模型。

但是如今，OpenAI似乎想要搶在谷歌之前發佈。據知情人士透露，這家人工智能初創公司正將其最先進的大型語言模型GPT-4與多模態功能相結合，這個更強大的多模態模型代號為Gobi。

一場較量即將展開

與GPT-4不同，Gobi從一開始就被設計為多模式，不過似乎OpenAI公司目前還沒開始訓練這個模型。

此外，隨着關於GPT-5的傳言逐漸傳播開來，人們開始好奇Gobi是否就是GPT-5，不過有分析人士稱，現在就下定論還為時過早。

谷歌那邊怎麼樣呢？考慮到谷歌擁有與文本、圖像、視頻和音頻相關的專有數據（包括來自搜索和YouTube等消費產品的數據），這一優勢將有利於谷歌向多模態模型的推動。

一位使用過Gemini早期版本的人士透露，與現有的模型相比，Gemini似乎產生的錯誤答案更少。

無論如何，這場競賽類似於人工智能版的蘋果與安卓之爭。而Gemini的到來將揭示谷歌和OpenAI之間的差距到底有多大。

對惡意使用的考量

OpenAI此前在3月份發佈GPT-4時曾預展示了多模態功能，但除了一家名為「Be My Eyes」的公司外，其沒有向其他公司開放。Be My Eyes是一家為盲人或視力低下的人提供技術的公司。

六個月后，OpenAI公司準備在更大範圍內推出被稱為GPT-Vision的功能。據悉，OpenAI可能會在GPT-Vision之后再推出Gobi。

為什麼隔了這麼長時間才推出？信息安全問題是一個主要的考量因素。

OpenAI主要是擔心新的視覺功能會被惡意利用，比如通過自動解決驗證碼來冒充人類，或者通過面部識別來跟蹤人。但如今，OpenAI的工程師們似乎已經接近於解決圍繞這項新技術的法律擔憂。

谷歌也有同樣的困擾。不過對於大模型被惡意使用或濫用的問題，谷歌給出的回答是，該公司在7月份就做出了一系列承諾，以確保其所有產品都被負責任地開發。