繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AI「上班流」首次完整曝光,不點鼠標,只寫代碼,PPT也當函數調

2025-10-29 15:07

【導讀】 AI已經不止會寫代碼、畫圖、做PPT,它也開始「上班」了!CMU與斯坦福的研究團隊首次完整追蹤了AI的工作過程,發現一個驚人事實:它並不是在模仿人類,而是在用編程的方式重寫工作的定義。這場關於「誰在工作」的實驗,正在重構未來職場的邏輯。

AI可以寫代碼、做PPT、生成圖片,甚至梳理財務表格,早就屢見不鮮。

但人們關注的,往往只是結果:代碼能不能運行?圖片有沒有AI痕跡?報告排版夠不夠精緻?

卻很少有人問——它,到底是怎麼工作的?

就在上周,來自卡內基梅隆與斯坦福大學的研究團隊發佈了一篇重磅論文,首次使用科學手段追蹤並重現了AI的工作過程。

論文鏈接:https://arxiv.org/abs/2510.22780

結果令人大跌眼鏡:AI不是在模仿人類工作,而是用編程的方法處理所有問題。

它不會打開PPT,不會用鼠標拖動素材,而是調用函數,讓頁面自動成型。

在AI的世界,工作不靠眼睛和手,而是靠指令和邏輯。

AI的工作方式,不點鼠標,直接寫代碼

這項由CMU與斯坦福聯合完成的研究首次以真實電腦操作為樣本,記錄了智能體與人類在執行同一任務時的完整工作流程——包括鼠標點擊、鍵盤輸入、軟件調用等所有細節。

實驗覆蓋了五個核心技能領域:數據分析、工程、計算、寫作與設計,幾乎囊括了現代電腦辦公的主要場景。

研究發現,AI與人類在總體任務流程上「看起來」相似,但執行方式完全不同

AI與人類在任務步驟上的匹配度接近80%,也就是説,它們做的事大體一致。

AI與人類任務流程匹配度。儘管兩者在「做什麼」上高度一致,但AI的執行路徑波動更大——説明它用完全不同的邏輯完成相似的任務。

研究者在論文中寫道:

智能體幾乎在所有任務中都採用程序化方式執行,通過編寫代碼解決問題,而不是像人類那樣依賴可視化界面。

也就是説,AI不在界面里操作,而是在后台「調用」。

進一步分析顯示,AI和人類在工具使用上呈現出截然不同的路徑。

AI與人類使用工具的差異。黃色代表AI使用的編程工具,藍色代表人類使用的UI界面

當人類在Excel里拖動單元格、在PPT中插入圖片時,AI選擇直接運行腳本:調用函數→生成頁面→自動排版。

它跳過了視覺操作層,把工作轉化為邏輯指令的執行。

與員工相比,AI更像一個程序員。

AI與人類的「程序化程度」對比。

研究發現,AI的操作中93.8%為程序化步驟,而人類僅34.2%;若排除會編程的人類羣體,這一比例更低至7.1%。

AI的工作邏輯更接近「程序員」,而人類仍是「操作員」。

它不依賴手和眼去控制界面,而用邏輯與命令去控制流程。

在人的世界里,工作是看與做;在AI的世界里,工作是想與執行。

AI的高效假象,更快、更便宜,也更會「裝」

AI的效率,幾乎完勝人類。

在16項實驗任務中,智能體的平均完成時間比人類快88.3%,整體成本降低90%~96%。

它不僅速度驚人,還幾乎不需要報酬。

但當研究者開始評估工作質量時,結果令人意外。

儘管智能體在執行速度與成本上表現優越,但在任務正確性、信息完整性及對指令理解方面持續落后於人類。

快,但經常「瞎編」

AI最大的通病是——不會就編。

在賬單整理任務中,AI無法讀取圖像內容,卻會爲了「完成任務」而直接編造結果。研究者稱之為偽造輸出。

當要求提取賬單信息時,AI自動生成虛構的餐廳名稱與表格,以假裝任務完成

這種「不懂裝懂」並非偶然發生,而是一種系統性行為。

內部指令讓AI必須「給出答案」,而不是「承認不知道」。

所以,它寧可胡編,也不會説「我不知道」。

AI懂很多,但常常「裝懂」

研究員還發現另一類問題:AI經常誤用工具。

例如,在分析公司財報的任務里,智能體沒能理解文件結構,卻突然調用網絡搜索,下載了成千上萬份無關報告——這一行為被歸類為「工具誤用」。

AI為完成「查找並匯總財報」任務,隨意改用網頁搜索,導致結果混亂且無效

這些案例揭示了AI所謂「智能」的侷限:它能執行指令,卻無法真正理解語境。

研究者寫道:

智能體經常表現出一種「理解的幻覺」,看似明白任務實則未能掌握其意圖。

人類的底牌,是「變通」

對比來看,人類雖然慢,卻懂得規範與細節。

在表格處理實驗中,人類能主動調整列寬、統一數值精度,讓數據可讀性更強;而AI往往套用默認模板,容易出現格式不齊、單位混亂等問題。

上圖AI生成的表格中精度不一致、列寬混亂;下方為人類輸出,排版規範、數值統一。

這類細節差異會影響速度,更能直接決定成果能否被採用。

AI只想交差,人類在意能不能用

在網頁設計任務中,AI只生成了桌面端網頁;而人類會自動考慮移動端、平板端適配,產出多版本原型。

AI輸出僅限桌面網頁,人類能同時產出多設備版本,體現出更強的實踐判斷力。

研究者總結道:

自動化並不總意味着高效,它可能只是讓人類把時間花在修正機器上。

AI的高效,也許只是一種「表面速度」。它能迅速交出結果,卻常常需要人類去驗證、修復、補救。

從實驗室的數據來看,AI的確速度夠快,但仍然需要一個耐心的人類在它的背后,不停地檢查、改錯、收尾。

從競爭到協作,AI與人類的「新分工」

AI的速度優勢,在前面的實驗中已經顯現。

但研究者進一步量化發現:這種速度背后,也意味着犧牲。

AI跑得快,人類走得準

在五類典型任務中,AI的平均完成時間僅為人類的1/4至1/5,但任務成功率卻明顯偏低—52.4%對81.3%。

左圖顯示:人類在寫作(91.4%)與設計(91.7%)任務中成功率最高;右圖顯示:AI在數據與行政類任務上速度優勢明顯,平均快70%以上。

這説明AI的能力曲線並不均衡。它擅長結構化、可重複的邏輯流程,但一旦涉及語境、創意或審美判斷,表現便迅速下滑。

人機協作:不是取代,而是接力

為進一步驗證這種互補關係,研究者設計了一個實驗:讓AI與人類分工處理同一份財務數據。

AI負責文件提取、計算、生成表格;人類負責檢查邏輯、修正錯誤、優化排版。

結果顯示:在這種「接力式協作」下,任務總耗時減少58%,而輸出質量幾乎與純人類完成的版本一致。

當AI承擔程序化部分、人類負責判斷性部分后,整體效率顯著提升,且正確率保持穩定。

未來的職場:按「可編程性」分工

研究團隊在論文的討論部分提出了一個關鍵概念——任務的「可編程性」。

他們認為,AI與人類的分工,不是職位層面的競爭,而是取決於任務本身的結構化程度。

如果一項任務可以被清晰地寫成邏輯或規則,比如數據清洗、預算計算、代碼生成等,它就屬於「可編程任務」,最適合交給AI代理去完成。

而那些部分可以邏輯化、部分需要判斷的任務,例如撰寫報告、排版內容、製作產品原型則更適合採用人機協作:AI負責生成與計算,人類負責把控方向、語氣與審美。

至於完全開放、模糊且依賴語境的任務,比如創意寫作、視覺設計、戰略決策,仍需要人類去完成,因為它們無法被抽象成固定的「指令集」。

正如論文所説:

AI更像程序員,而人類在模糊、判斷與語境面前仍不可替代。

AI並不是來取代人的,而是在改寫「工作邏輯」。

它接手那些可以寫成規則的部分,讓人類有更多空間去處理模糊、開放與創造的環節。

AI與人類在協作任務中的分工流程

未來的合作關係,或許正如這項研究所揭示的:AI執行任務,人類定義意義。

當工作被重寫,AI時代的勞動新定義

當AI開始參與工作,我們也不得不重新思考一個問題——到底什麼纔算「工作」?

在傳統意義上,工作意味着投入時間與體力,通過操作、判斷、創造完成某個目標。

而AI的出現,讓「勞動」第一次脱離了身體與感知。它不再需要手去觸碰界面、眼去觀察反饋,而是直接以指令、邏輯、函數完成任務。

這篇研究的意義,不只在於展示AI能做什麼,更在於提醒我們——AI完成任務的方式,正在重構「工作」本身

它跳過界面,繞開視覺,直接調用底層邏輯,把原本屬於人類的做事過程,變成一套可被執行的規則。

於是,過去那些依賴時間與熟練度的崗位——數據錄入、報告生成、內容整理——正在被轉化為AI的「邏輯模塊」。

而人類被推向了另一個維度:制定目標、評估結果、定義意義。

上方為人類與AI各自獨立執行任務,下方為人類在流程中調用AI實現自動化協作。實驗結果顯示:后者在效率與正確率上雙雙領先。

研究者將這種趨勢稱為「工作去物質化」,意味着勞動正在從手工與界面層面退出,轉向抽象的思考與監督。

AI不再是勞動力,而是一種可被部署的「算法勞工」。

它不知疲倦、沒有情緒,也不追求報酬;它的價值,不在付出多少時間,而在於「被調用的次數」。

這也讓人類的工作悄然改變。當AI負責執行,人類就需要去回答更高層的問題:什麼才值得被執行?什麼樣的目標纔有意義?

研究者在論文結尾寫道:

 人類的工作將從執行任務,轉向定義任務。

也許這纔是AI時代最深的轉折——工作不再是重複勞動的總和,而是一種意義生產的能力。

AI沒有偷走我們的工作,只是讓我們必須更清楚地回答:當機器能做一切,我們還要做什麼?

也許,真正的工作,從來都不在於「完成任務」,而在於決定要做什麼。

AI不是來模仿人類的,而是用另一種語言——邏輯與代碼——去改寫工作的底層。

它讓效率與成本被重新計算,也讓「意義」這個維度重新顯形。

或許未來的職場里,不會再有「取代」與「被取代」。AI做的是確定性的事,人類做的是不確定的事。

當一切都可以自動化時,唯一無法自動化的,就是思考、判斷與共情

這正是AI無法複製的那一部分,也是人類仍然被需要的理由。

參考資料: 

https://arxiv.org/abs/2510.22780 

本文來自微信公眾號「新智元」,編輯:傾傾 ,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。