熱門資訊> 正文
2023-02-16 15:59
本文來自微信公眾號:計算廣告(ID:Comp_Ad),作者:大數據仁波茄,題圖來自:視覺中國
去年12月,咱們已經聊過一回ChatGPT。過了倆月,這東西更是紅得發紫了。而且,在中國的泛IT圈,它掀起了一場前無古人的吹牛皮大賽!不信,您瞧瞧下面這些新聞:
崑崙萬維:今年內發佈中國版類ChatGPT代碼開源
360:計劃推出類ChatGPT技術的demo版產品
少林寺:與百度合作,接入類ChatGPT智能對話產品
寺庫:將對ChatGPT相關技術深入研究和拓展
水滴:公司內部已經開展類ChatGPT應用測試
百度:將於3月推出類似ChatGPT的聊天機器人
阿里:正研發類ChatGPT產品,目前正內測
華為:在類似 ChatGPT 方向的佈局
訊飛:類ChatGPT技術將於5月落地
王慧文:帶資5000萬刀打造中國版ChatGPT
咱們再看看所謂「ChatGPT概念股」里,某天股價長勢最喜人的幾家,趙麗蓉講話:我瞅這些咋就不像唱評戲的呢?
當然,這里面肯定有認真消化和研究技術的實踐者,不過在吹牛大賽的氛圍下,除非產品問世,否則也就難辨雌雄了。
而對其中的吹牛選手來説,除非有一天蝦醬也成了海鮮,他們與ChatGPT的距離,纔會跟牛郎星和織女星的距離差不多。
我並不是大賽種子選手,當然也不是罵街來的。想知道吹牛大賽的結果,您得了解這項新技術的一些底層邏輯:它的初心是解決什麼問題?它與之前的技術有什麼進展?復現它的難度和門檻在哪里?理解了這些,到底誰是真冠軍,誰是吹牛皮,您可以自行判斷。
純粹講技術的乾貨,很多大佬寫過,只是多數讀者未必看得懂。所以,我想完全用淺顯的例子和比方,幫大家粗淺地理解一下它的原理和背景。不過請謹記,這些並不是嚴肅討論,只當是擴充一下茶余飯后的談資吧。
大語言模型是弄啥的
ChatGPT這東西,是大語言模型(Large Language Model, LLM)的一種。有多大呢?大約1750億個參數。您想想,一個參數就算4個字節,1750億個......反正不老少的了!
沒錯,不光是ChatGPT,從2018年谷歌的Bert開始,當今的語言模型研究界就有個無奈的共識:大,纔是真的好。這雖然是經過實踐效果檢驗過的技術路線,但是具體到語言的建模,還是有一些根本原因。
長時間以來,人類對自己的語言本質到底是什麼,一直是搞不大清的。一度大家認為,語言就是「語法結構 + 詞匯」:詞之間的關係框架確定了,再把詞意套進去,就能明白一句話説的是啥了。所以在我剛進入AI領域的那個年代,對句子結構的自動分析和對詞義的建模,都是自然語言處理的重要任務。
可是實際上,這個認識是有根本缺陷的!為什麼這麼説?您看看下面這一對句子:
爸爸抱不動兒子了,因為他太胖了 。
爸爸抱不動兒子了,因為他太瘦了。
稍微琢磨一下就能發現:第一句里的「他」,指代的是「兒子」;而第二句里的「他」,指代的是「爸爸」。這兩句話的結構一模一樣,只有一個字做了反義替換,為什麼連指代關係都變了呢?很顯然,僅僅靠這兩句話本身的信息,是沒法解釋這樣的理解過程的。也就是説,人類在理解語言的過程中,一定有一個龐大的常識和背景知識網絡,在背后默默做支撐。
打個比方,要理解一句話的意思,字面上的信息只是冰山露出來的那一小塊,而水面下還有龐大的一坨常識和背景知識,那纔是理解的關鍵。細想想這也很好理解:一個人要善解人意,那總得見多識廣,通曉世情,機器又何嘗不是如此呢?
既然如此,何不乾脆就把人類能收集到的各種語料,從教授講課到潑婦罵街,從醫學雜誌到黃色網文,一古腦兒地塞到一個巨大的模型里,看看他能學出啥來,如果真學得有點模樣,再去理解人類語言,是不是能有所突破?
一般人即使敢想也不會干,會干也玩不起,因為這個模型的規模實在是太太太大了!可是,谷歌有錢又敢干,他們在2018年出了個Bert大模型,庸俗化地説,就是上面的思路,這個模型一出,在學術界就引起了轟動,雖然説當時離今天我們看到的ChatGPT還有不少差距,但是在一些學術性指標上,把自然語言理解這個多年徘徊不前的任務,往前推進了一大步。
就這樣,又一次在「大力出奇跡」的思路下,我們似乎看到了理解語言的一線曙光。
ChatGPT的獨門武功
雖然ChatGPT也屬於大語言模型的範疇,但是,它可能是第一個人類願意坐下來跟它盤道的聊天機器人,產業里程碑的意義和影響力顯然已經高於Bert這個前輩。
那麼,ChatGPT有什麼獨門武功呢?是不是就因為模型更大,數據更多,才力壓Bert的呢?不能這麼説,雖然它們底層的一些技術如Transformer等一致,但是OpenAI在問題的定義上,一開始就選擇了一條更根本、也更困難的道路。
與自然語言相關的任務有很多,比如翻譯、客服、甚至是編程、寫詩。我們好不容易搞了個大模型,怎麼用在這些五花八門的任務上呢?
按照谷歌的設想,大模型只做通用背景知識的學習建模,目標也簡單:從一個句子里扣掉幾個詞,讓大模型做完形填空,看它是不是能填準。如果要解決某個具體領域的任務,那麼就利用領域數據,把通用大模型捏咕捏咕,打造一個領域模型來用。
在這個路線下,如果有個初中數學答疑的領域AI,即使你問他什麼數學問題它都對答如流,但是一旦跳出來問一句「今晚上你覺得我應該吃點啥」,會立刻不知所云,憤而死機。
那麼,OpenAI是如何定義問題的呢?他們認為,不應該一個領域搞一個模型,而是應該根據聊天過程中用户的提示,也就是「Prompt」,隨時靈活地切換任務模式。如果這個能實現,上面例子里從數學課里跳出來討論晚飯的場景,你就不會覺得對面的數學特級教師瞬間變成二傻子了。
也就是説,谷歌的思路,是給你準備一個排的專業祕書,但是每人只會一樣;而OpenAI的思路,是給你搞一個全能祕書,白天有事都是這祕書干。當然,晚上人家就不管了。
顯然,后面這個難得多了。所以,OpenAI以前發佈的模型,都沒能達到比谷歌更驚艷的體驗。然而這次,它顯然是跨越了這個體驗門檻。
其實仔細分析一下,就信息質量而言,ChatGPT胡說八道的地方還多了去了。但是,讓大家感到驚艷的,是這家伙你問什麼都接得住:翻譯、編程、寫作文,先不論結果如何,人家沒有二傻子一樣的盲區。而這就是OpenAI的問題定義長期努力的結果。
當然,除了這個更遠大的目標,ChatGPT在學習技術上,也有一些效果很好的突破,其中最關鍵的是RLHF(Reinforcement Learning from Human Feedback),「依據人類反饋的強化學習」。
這是句黑話,大家不用理它。實際上,它就是在大語言模型的學習過程中,加入了「模擬考試」的環節。
原來的大模型,就像是「題海戰術」:把所有收集到的語料往里一堆,你自個兒練去吧。當然,見得多了,就算是沒有老師點撥,這家伙的應試能力肯定也會提高。而這次的ChatGPT,加入了這麼一個環節:你練完了,我找個老師跟你聊,看你哪句答得不像話,就給個小叉叉,這不就是模擬考試嘛!拿着這帶小叉叉的試卷回去再題海戰術,這麼一輪一輪來,成績提高得可就快了。
咱們這兒説説簡單,上面這一大堆被我庸俗化了的思路,要變成具體的計算公式和解決方案,那可真不是件容易的事兒。絕不是隻要有錢、敢吹就能搞定的。
中文ChatGPT難度何在
説回中國IT圈的吹牛大賽。除了嘴皮子功夫,要在中國搞出ChatGPT水準的技術和產品,有哪些核心的門檻和難度呢?
依我看,這里有兩個硬條件、一個軟條件:
第一個硬條件,當然是把技術基本吃透。
這事兒,能實踐參與的就不多:學術界因為算力和數據規模限制,靠自己的力量基本無法復現這些研究,最多也就是推推公式;產業界因為巨大的投入可能累及企業利潤,能夠大規模投入的也是鳳毛麟角。
不過,我覺得這一點還只是時間問題:資本市場熱成這樣,牛皮也都吹了一通,成本上的顧慮已經不重要了。正如Yann Lecun説的,ChatGPT其實也並非在底層技術上有巨大突破,這話雖然有點酸葡萄,倒也還算比較公允。所以假以時日,幾家大廠至少消化現有的ChatGPT技術,然后堆算力搞箇中文版出來,我還是比較樂觀的。
第二個硬條件,是數據的質和量。
説到這個,我們就不得不有點悲觀了:首先,中文互聯網總體的信息量,比起英文互聯網有着數量級的差別。
除了數據的量,數據的質也有問題。我們知道,嚴肅的知識內容,比方説最新的科技期刊、金融分析等,幾乎都以英文行於世。
巧婦難為無米之炊,從這個意義上説,即使是OpenAI原班人馬搞一遍中文模型,我感覺在對話流暢程度、信息正確性等方面,也會有一定差距。這個倒也不是完全沒辦法——把英文的語料翻譯過來就得了唄。不過那就還要依賴翻譯的質量,這路就越走越繞了。
説個具體例子,要不是微軟收購了GitHub,你以為ChatGPT能學會寫代碼?
當然,中文互聯網也不是全無優勢。ChatGPT解決的是個人機對話問題,人人對話數據顯然是有直接價值的重要語料,而在這個領域,有家中國公司的數據,可以説在全球範圍內那是蠍子拉屎——獨一份兒。只不過,這家公司是否願意積極投入基礎研究,就不得而知了。
再説説軟條件,這個我覺得纔是最難的:發自內心的長期主義。
ChatGPT一出,所有的一二級市場,都蠢蠢欲動起來了。這兩天,我也接到很多找我交流的電話,讓我這個二手科學家都應接不暇。他們最急迫地想得到答案的問題是:這東西能在哪些商業場景落地?市場潛力有多大?
從這些問題里,我感覺大家有個誤解:似乎隨着ChatGPT的推出,自然語言和人機對話的研究,就到了關底了,得趕緊想想摘桃子、分蛋糕的事兒。
哪兒有那麼容易啊!其實,這次的ChatGPT讓很多做垂直領域自然語言處理的公司非常尷尬:前幾年做法律文書的、廣告文案的,你領域化深耕的哪個模型,現在還不如人家通用模型啦!這就好比大家一起去野外探險,發現個銅礦,有幾位就趕緊掉隊挖起來了,可是等人家再往前走找到金礦,您挖的那點銅,早沒人要了。
我們上面也說了,ChatGPT的成功,某種意義上要歸功於它開始就選擇了一條更曲折但是更光明的道路。包括谷歌在內,這些一流團隊的一個共同特質,是在完全看不見目標還有多遠、遑論有什麼商業模式的漫漫長夜里,還能堅定地努力,並不慼慼於大概率的失敗。
這樣的長期主義,纔是今天中國的AI研究最需要的。否則,即使這回你跟上了,下回人家再發現個鑽石礦,誰能保證你還一定能跟上?
當然,咱也不能站着説話不腰疼,這麼做需要有足夠的家底兒,要不然走着走着餓死了咋辦。不過,對中國的一些大廠來説,連送個菜都能先砸幾百億,我覺得他們的家底兒根本不是問題。
好了,咱們聊了這麼多,那麼中國正在如火如荼舉行着的ChatGPT吹牛皮大賽,結果將會如何,您是不是已經有了自己的判斷?
本文來自微信公眾號:計算廣告(ID:Comp_Ad),作者:大數據仁波茄