熱門資訊> 正文
2023-02-28 18:13
在OpenAI推出大型語言模型ChatGPT后,競爭對手紛紛迎頭趕上。谷歌有 Bard,微軟有新必應。現在,Meta也上線了一個新模型LLaMA。目前,該模型只對研究人員開放。
據瞭解,LLaMA是 Large Language Model Meta AI 的首字母縮寫詞,比現有的模型更小,因為它是為無法訪問大量基礎設施的研究社區構建的。LLaMA 有多種尺寸,從70億個參數到650億個參數不等。
Meta方面稱,儘管 LLaMA-13B 的尺寸較小,而且少了1620億個參數,但「在大多數基準測試中」表現優於 OpenAI 的GPT-3。
據報道,最大的模型 LLaMA-65B 與 DeepMind 的Chinchilla70B和PaLM-540B等模型可相提並論。
LLaMA 是一個基礎模型:它在大量未標記數據上進行訓練,這使得研究人員更容易針對特定任務微調模型。由於模型更小,因此更容易針對用例進行再訓練。
LLaMA不僅僅是使用英語文本構建的。Meta使用20種使用拉丁語或西里爾語腳本的語言訓練其模型。然而,大多數訓練數據都是英語,因此模型性能更好。
Meta 的研究人員聲稱,由於模型的大小,對當前大型語言模型的訪問受到限制。
Meta 認為「這種受限訪問限制了研究人員理解這些大型語言模型如何工作以及為何工作的能力,阻礙了提高其穩健性和解決已知問題(例如偏見、侮辱和產生錯誤信息的可能性)的努力」。
除了使模型更小之外,Meta 還試圖讓 LLaMA 更易於訪問,包括在非商業許可下發布它。
對各種 LLaMA 模型的訪問權限只會根據具體情況授予學術研究人員,例如隸屬於政府、民間組織和學術界的研究人員。
與 ChatGPT 一樣,LLaMA 與其他語言模型一樣存在生成有偏見或不準確的信息。Meta 的 LLaMA 聲明承認了這一點,並表示通過共享模型,研究人員可以「更輕松地測試新方法來限制或消除大型語言模型中的這些問題。」
Meta在去年5月曾推出一款面向研究人員的名為OPT-175B的大型語言模型,去年年底還發布過另一款模型Galactica,但后者被發現經常分享有偏見或不準確的信息,在48小時內被迅速下架。
免責聲明:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,亦並非旨在提供任何投資意見。有關內容不構成任何專業意見、買賣任何投資產品或服務的要約、招攬或建議。本頁面的內容可隨時進行修改,而本公司毋須另作通知。本公司已盡力確保以上所載之數據及內容的準確性及完整性,如對上述內容有任何疑問,應徵詢獨立的專業意見,本公司不會對任何因該等資料而引致的損失承擔任何責任。以上內容未經香港證監會審閲。