熱門資訊> 正文
2026-04-20 07:18
最近,YouTube 向用户發起調查:你剛剛看的這個視頻,有沒有「AI 爛片」的感覺?
評分從「完全沒有」到「極其明顯」,由用户自行判斷。
官方的解釋是,平臺希望藉此打擊氾濫的低質量 AI 生成內容。
消息一出,有人拍手叫好,認為 YouTube 終於出手整治亂象。
有人則認為表面是舉報 AI 爛片,實際上在幫谷歌訓練下一代 AI。
YouTube 每天有 1.22 億活躍用户。當這些人開始對 AI 視頻逐一打分,他們實際上是在告訴系統,哪些畫面、哪些動作、哪些細節,會讓人一眼識破這是 AI 生成的。
這批數據,恰好可以直接用於訓練谷歌旗下的 AI 視頻生成模型 Veo,讓下一代模型知道哪里「露餡」了,從而生成更難被肉眼分辨的視頻。
與此同時,谷歌還向一家專門為兒童製作 AI 視頻內容的初創公司投資了 100 萬美元。
事實上,這家公司已做了同樣的事情整整十五年。
每當我們打開瀏覽器、登錄銀行賬户或是在網購平臺下單,屏幕上總會跳出一個熟悉的小方框,要求點擊幾張圖片,或是在一個勾選框旁邊打上對勾。
我們以為這只是一道防止機器人入侵的安全關卡,實則在那短短十秒鍾里,我們正在為一家市值數百億美元的科技巨頭,無償完成一項極具商業價值的工作。
這套系統叫做reCAPTCHA,它是互聯網史上規模最大、也最鮮為人知的數據採集行動。
故事要從 2000 年前后説起。
彼時,垃圾郵件機器人正在席捲互聯網,論壇被大量刷帖,用户收件箱被塞滿無用信息,各類網站急需一種方法來區分真實的人類用户與自動化程序。
卡內基梅隆大學教授路易斯・馮・安發明了CAPTCHA,這是一種將文字扭曲變形、只有人類才能辨認的圖形驗證碼。
馮・安意識到,每天有數以百萬計的人在這些驗證碼上消耗認知精力,如果這些精力能被同時引導去做另一件有價值的事,會怎樣?
2007 年,他推出了reCAPTCHA。
驗證碼不再顯示隨機亂碼,轉而呈現來自真實書籍的掃描圖像,那些計算機尚無法自動識別的古舊文字。用户每完成一次驗證,就等於幫助完成了一小段古籍的數字化。這些書來自《紐約時報》歷史檔案與谷歌圖書項目,總量超過 1.3 億冊。
2009 年,谷歌收購了 reCAPTCHA。真正大規模的數據採集,就此開始。
到 2012 年前后,辨認扭曲文字的時代走到了盡頭,谷歌有了新的需求。
谷歌的街景採集車正在將地球上的每一條道路拍進鏡頭,然而原始照片只是數據。要讓 AI 真正讀懂這些圖像,就必須知道畫面里哪里是紅綠燈、哪里是人行橫道、哪里是店面招牌。
這一過程在機器學習領域叫做「數據標註」,是訓練計算機視覺模型不可缺少的環節,也是一項造價高昂的工程,行業市價通常在每小時 10 至 50 美元之間。
谷歌就把標註任務嵌進全球每個人每天都繞不開的東西里。reCAPTCHA v2改變了界面,用户面對的是一組來自谷歌街景的真實照片,被要求「點擊所有包含紅綠燈的方塊」,或「選出每一處人行橫道」。
看起來仍是一道安全驗證,背后的每一次點擊,都是在為谷歌的計算機視覺模型打上精確的訓練標籤。
鼎盛時期,全球每天有 2 億個 reCAPTCHA 被完成,每次耗時約 10 秒,摺合每天超過 50 萬小時的人工勞動。按數據標註行業最低市價估算,谷歌每天從中獲取的免費勞動價值高達 500 萬美元。
reCAPTCHA 幾乎無處不在,每一家銀行、每一個政務平臺、每一個電商網站,都將它嵌入了登錄入口。用户根本沒有繞行的余地,想訪問自己的賬户,就必須先完成標註。
這種強制性,是其他任何數據採集方式都無法企及的。Scale AI、Appen 等專業標註公司僱用了數十萬名工人,有時時薪不足一美元,但即便如此,也無法達到 reCAPTCHA 所覆蓋的規模與密度。
這些數據最終流向了兩款產品。
一是谷歌地圖。作為全球使用最廣的導航工具,它識別路牌、定位商家、理解城市地理的底層能力,有相當一部分建立在這些人工標註之上。而那些完成標註的人,大多隻是想查一下賬單余額,或是在網上下一張訂單。
二是 Waymo。這是谷歌旗下的自動駕駛項目,2016 年獨立運營。自動駕駛汽車要在真實道路上安全行駛,必須以近乎完美的精度識別紅綠燈、行人、停車標誌等數千種視覺信息,這些識別任務所需的核心訓練數據,正是由數以百萬計、對此毫不知情的普通用户通過 reCAPTCHA 完成標註的。如今 Waymo 估值 450 億美元,2024 年完成超過 400 萬次付費載客,仍在持續擴張。
2018 年,reCAPTCHA 推出第三個版本,這一次連驗證題都消失了。系統在后台靜默運行,追蹤用户的鼠標軌跡、頁面滾動速度和光標停留位置,通過分析這些行為模式來判斷訪問者是否為真實人類。這些行為數據,同樣源源不斷地流入谷歌的 AI 訓練體系。
馮・安當年的構想,在某種程度上稱得上是對人類認知資源的一次創造性調度,把人們原本就要花在垃圾過濾上的精力,引導去做一件真正有意義的事。這個出發點,本身並無惡意。
但有人認為,谷歌將一套用户別無選擇、必須使用的安全機制鋪設至整個互聯網,而后將產出的海量數據悄然收割,轉化為價值數百億美元的商業產品。整個過程中,用户不僅一無所獲,甚至連知情的權利都未曾擁有。
今天 YouTube 對 AI 視頻打分這件事,似乎也是把用户自發的行為,包裝成一項有益於平臺生態的舉動,同時將產生的數據悄悄收入囊中,用於餵養下一代商業產品。
https://x.com/TukiFromKL/status/2033968600248180958?s=20
https://x.com/cryptopunk7213/status/2034074712444207504?s=20
https://x.com/sharbel/status/2033921490412806579?s=20
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者:楊文,36氪經授權發佈。