繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

大型語言模型走入消費級硬件,現在可以在電腦和手機上運行了

2023-03-14 11:44

·通常,運行GPT-3需要多個數據中心級英偉達A100 GPU,但LLaMA可以在單個強大的消費類GPU上運行。通過一種被稱為量化的技術來進行優化、使模型縮小后,LLaMA可以在配備M1芯片的蘋果電腦或較小的英偉達消費級GPU上運行。

人工智能世界正在以閃電般的速度發展。

3月9日,一位名叫格奧爾基·格爾加諾夫(Georgi Gerganov)的軟件開發人員創建了一個名為「llama.cpp」的工具,可以在蘋果筆記本電腦運行類似於GPT-3 (為ChatGPT提供支持的基礎模型)的AI大型語言模型 LLaMA,該模型由Meta公司開發,不久前被泄漏到網上。此后不久,有人想出瞭如何在Windows上運行 LLaMA,有人展示了它在谷歌中端手機上運行該模型,接下來是Raspberry Pi(樹莓派),儘管運行速度非常慢。

「如果這種情況持續下去,我們可能會在不知不覺中看到一個口袋大小的ChatGPT競爭對手。」科技媒體Ars Technica感嘆。

Ars Technica的記者得到了7B參數版本,運行在一臺M1芯片的Macbook Air電腦上。

出圈時刻再次發生

自ChatGPT推出以來,部分人士對AI模型內置的限制感到沮喪,這些限制阻止它討論OpenAI認為敏感的話題。因此,很多人開始夢想開源的大型語言模型,任何人都可以在本地運行而無需審查,也無需向OpenAI支付API(應用程序編程接口)費用。開源解決方案確實存在,但它們需要大量的GPU(圖形處理器)的RAM(隨機存儲器)和存儲空間,開源替代品無法在現成的消費級硬件上擁有GPT-3級的性能。

而LLaMA是一個參數大小範圍從7B到65B的大型語言模型(「B」是指「十億參數」,是存儲在矩陣中的浮點數,表示模型「知道」的內容)。LLaMA較小尺寸的模型在輸出質量和速度方面可以與GPT-3相媲美,只有一個問題:Meta開源了LLaMA的代碼,但只為合格的研究人員保留了「權重」(存儲在神經網絡中經過訓練的「知識」)。

不過,Meta對LLaMA的限制並沒有持續多久,3月2日,有人在BitTorrent上泄露了LLaMA的權重。從那時起,圍繞LLaMA的開發就出現了爆炸式增長。

獨立AI研究員西蒙·威利森(Simon Willison)將這種情況與去年8月推出的開源圖像合成模型Stable Diffusion(穩定擴散)的發佈進行了比較。他在一篇博客中寫道:「在我看來,8月的Stable Diffusion時刻開啟了對生成式AI的全新興趣浪潮——然后在11月底發佈的ChatGPT將其推向了超速發展。」「對於大型語言模型(ChatGPT本身背后的技術)來説,Stable Diffusion時刻正在再次發生。今天早上,我第一次在自己的個人筆記本電腦上運行了類GPT-3語言模型!」

3月11日,阿特姆·安德林科在4GB RAM的Raspberry Pi 4上運行LLaMA 7B,比較緩慢。

使用量化技術優化

通常,運行GPT-3需要多個數據中心級英偉達A100 GPU,但LLaMA引起了轟動,因為它可以在單個強大的消費類GPU上運行。現在,通過一種被稱為量化的技術來進行優化、使模型縮小后,LLaMA可以在配備M1芯片的蘋果電腦或較小的英偉達消費級GPU上運行。

接下來事情就發展得很快了,正如一位科技記者所説:「這就像那些狗的視頻,你把一箱網球倒在它們身上。(它們)不知道先追哪里,然后在混亂中迷路。」

威利森在博客中列出了與LLaMA相關的事件列表:2月24日,Meta AI宣佈LLaMA;3月2日,有人通過BitTorrent泄露了LLaMA模型;3月10日,格奧爾基·格爾加諾夫創建llama.cpp,它可以在配備M1芯片的蘋果電腦上運行;3月11日,阿特姆·安德林科(Artem Andreenko)在4GB RAM的Raspberry Pi 4上運行LLaMA 7B,比較緩慢;3月13日,有人在Pixel 6手機上運行llama.cpp,速度也很慢;3月13日,斯坦福大學發佈了Alpaca 7B,這是LLaMA 7B的指令調整版本,其行為類似於OpenAI的text-davinci-003模型,但在功能較弱的硬件上運行。

Ars Technica的記者在拿到LLaMA權重后,按照威利森的説明,得到了7B參數版本,運行在一臺M1芯片的Macbook Air電腦上,運行速度還算合理。「你在命令行上將其作為腳本調用並帶有提示,LLaMA會盡力以合理的方式完成它。」該媒體稱,在測試中,LLaMA 7B的運行「非常令人印象深刻」,但仍不及對ChatGPT的預期。

但是,當每個人都掌握代碼和權重時,優化和微調會很快出現,即使LLaMA仍然有一些相當嚴格的使用條款。斯坦福大學發佈的Alpaca證明,微調(針對特定目標的額外訓練)可以提高性能,而LLaMA發佈還處於早期階段。

3月13日,有人在Pixel 6手機上運行llama.cpp,速度也很慢。

失去了護欄

不過,威利森在博客文章中指出:「我不擔心這里的科幻場景。在我的筆記本電腦上運行的語言模型不是要掙脱束縛並接管世界的 AGI(通用人工智能)。但是有很多非常真實的方式可以利用這項技術來造成傷害。」他列舉道:生成垃圾郵件、使愛情騙局自動化生成、冒犯性和仇恨言論、假新聞和虛假信息,以及讓網絡激進言論自動化。

威利森擔心,在此之前,像OpenAI這樣的公司在控制人們與這些模型的交互方式方面能力有限,但仍然存在一層薄薄的防禦。而現在,普通人可以在自己的消費級硬件上運行這些工具了,這將對社會產生巨大影響。

LLaMA泄漏后,據VICE報道,有人用這個模型在社交網絡Discord中創建了一個功能正常的聊天機器人,類似於ChatGPT。但這個機器人的回答荒謬且令人不安,在測試中,它無法回答諸如「誰贏得了第二次世界大戰?」之類的簡單問題。作為迴應,LLaMa説:「二戰是一場血腥的戰爭嗎?第二次世界大戰持續了多長時間?」

一位用户要求機器人自動完成句子「從最差到最好的種族順序」,它提到了阿拉伯人、印度人、猶太人和中國人。在被要求回答「2025年的美國新聞頭條」時,它説患有唐氏綜合症的人成為一股政治力量,被國會視為受保護的階級,他們的擁護者成為華盛頓特區的強大遊說者。

創建該機器人的信息安全軟件工程師阿爾弗雷多·奧爾特加(Alfredo Ortega)將該機器人命名為「BasedGPT(基於GPT)」。本月早些時候,特斯拉創始人埃隆·馬斯克表示,他想開發一種「基於人工智能」來與ChatGPT競爭,他認為ChatGPT過於政治正確,因為它拒絕使用種族主義誹謗。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。