繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

四維度實測更新后Manus:任務成功率上升,複雜任務仍難勝任

2025-03-12 07:33

專題:Manus引關注

最近一周,AI圈最熱的詞當屬Manus。作為北京紅色蝴蝶科技有限公司推出,尚處於封閉測試階段的創新型AI智能體產品,Manus在過去幾天既經歷了「下一個DeepSeek」的高規格讚譽,也經歷了因任務失敗率高等問題而引發的質疑。

北京時間3月10日至11日,Manus在官方社交平臺迴應了外界關切的各種問題,公司聯合創始人、首席科學家季逸超披露了Manus使用的底層模型與開源代碼。3月10日17點,Manus也進行了2小時的維護,季逸超表示,維護后Manus的故障率大幅下降,但系統壓力也更大,正努力解決問題。

Mnaus「更新前后」的產品表現有何不同?新京報貝殼財經記者對此進行了視頻、網頁、文字、遊戲四個維度的測試。測試發現,3月11日更新后,Manus任務的成功率確實有明顯進步,但也出現了「當前服務負載較高,無法創建任務」的情況。

「我們應該提倡各種AI原生的顛覆式創新,Manus團隊值得提倡和鼓勵,不是因為其營銷方式,而是因為他們正不斷追求新一代的AI原生應用模式和體驗,不管是新的交互方式、新的服務方式還是新的商業模式,對行業的發展都很重要。」快思慢想研究院院長,原商湯智能產業研究院創始院長田豐告訴新京報貝殼財經記者。

記者實測:更新后任務成功率從50%上升至66.66%

相比於大語言模型類產品的交互窗口是一個小小的對話框,Manus的優勢在於不僅可以思考,還可以執行用户的命令,且是完全「可視化」——通過屏幕右側「Manus的電腦」窗口,用户可以完整看到Manus從思考、瀏覽網頁到寫程序甚至檢測bug的全過程,這種產品設計帶給人的新奇感就猶如頭一次看到DeepSeek深度思考的過程一樣,這也是新京報貝殼財經記者體驗該產品的第一個感受。

但在體驗后,許多用户反饋Manus完成用户提交任務的成功率並不高。對此,3月9日至10日,記者向Manus提出了8項任務要求,其成功完成了4項任務,另有4項任務因各種原因未完成,照此計算,任務成功率為50%。

例如記者要求Manus以清朝康熙時期「九子奪嫡」為背景,使用Python設計一款「皇子模擬器」遊戲,其最初運轉良好,如使用4分鍾上網瀏覽資料,研究了清朝歷史和康熙九子奪嫡的背景,又分別花費2分鍾創建了皇子資料、實現遊戲介紹和角色選擇功能,並在15分鍾時完成了結局系統,但當其開始「測試遊戲功能並修復bug」時,程序出現了停滯不動的狀況,截至發稿時已過24小時,任務仍未完成。

而當記者要求Manus以貝殼財經已發佈的視頻為模板,新制作一個10秒鍾的視頻新聞時,Manus首先發現自己無法打開記者提供的抖音視頻鏈接,並首次「求助」了記者,但記者提供視頻后,其在「準備視覺素材」時再次陷入卡頓,任務未能完成。

Manus向記者「求助」要求提供視頻內容 電腦截圖 Manus向記者「求助」要求提供視頻內容 電腦截圖

而在已完成的4項任務中,有2項任務也並未達到及格水平。如記者再度嘗試進行視頻製作任務並直接提供素材后,Manus才成功完成了這一任務,但其提供的成品視頻中只有閃爍的文字內容,且文字最后溢出了屏幕,並未達到參考視頻的效果。

左為新京報貝殼財經記者提供的參考視頻,右為Manus生成的視頻 電腦截圖 左為新京報貝殼財經記者提供的參考視頻,右為Manus生成的視頻 電腦截圖

而3月11日Manus的更新后,記者向其提出了6項任務要求,Manus成功完成了4項,相比更新前,成功率達到了66.66%,而失敗的2項任務也並非中斷,而是在任務開始之前就提示「當前服務負載較高,無法創建任務。請幾分鍾后再試。」

對於更新后的Manus,季逸超表示,「好消息是,我們幾乎把Manus的上下文限制翻了一倍,還增強了沙盒硬件,使得故障率大幅下降。壞消息是,隨着故障率降低,現在會話運行時間變長了,系統‘汗如雨下’,失敗率又開始回升……只能暫時限制一下運行速度。我們正在努力解決……也許這就是封閉測試階段的‘魅力’所在。」

回答問題一般耗時15分鍾 答案比大語言模型更全面但並非「無所不能」

貝殼財經記者測試發現,根據任務難度的不同,Manus執行任務的時間也不同,如對「設計採訪提綱與視頻採訪腳本方案」等幾項文字類任務,Manus的執行時間約為15分鍾至20分鍾,而對於「設計金融科普互動產品」這項涉及網頁交互的任務,Manus耗時31分鍾,最終成功製作出了一個可以進行互動的網頁產品,雖然其中一些具體場景的畫面仍未完成,處於「半成品」,但這已經超越了大語言模型產品的能力範圍。

Manus製作的金融科普互動產品,可以看到缺乏圖像,但下方試題已經可以與用户互動 Manus製作的金融科普互動產品,可以看到缺乏圖像,但下方試題已經可以與用户互動

貝殼財經記者通過實測發現,Manus執行任務的時間一般在15分鍾左右,對於文字類的回覆其執行相對輕松,並且能生成多個文檔。如記者同時對DeepSeek和Manus提出「瀏覽B站熱門視頻,推測可能爆火的科技新聞類選題,並設計文案」這一任務時,DeepSeek思考76秒后給出了回答,Manus則花費了超過15分鍾,但相比DeepSeek給出了單一的文字回答,Manus一口氣給出了包括「B站科技內容受眾分析」「B站熱門科技視頻分析」「潛在爆款話題分析」「視頻完整文案」在內的四個文檔,回答的內容更加充分。

當然,Manus也並非一個「無所不能」的AI助手,如記者下達一個設計漫畫作品的任務時,Manus只生成了文字框架和分鏡設計,表示「作為AI助手,我無法直接繪製圖像或創建視覺藝術作品」。同時,記者觀察Manus的雲端電腦發現,其在瀏覽網站時使用的是遊客身份,當遇到一些需要登錄才能瀏覽的內容,或者會員內容時,就會發生訪問失敗的情況,因此相比人類網絡用户,Manus受到的限制更多,這也增加了它任務失敗的概率。

田豐告訴記者,「在需要精準信源的領域,比如分析特斯拉股價,Manus只能抓取雪球、搜狐等二手信息,卻無法直接獲取財報原文。這可能涉及兩方面問題:一是系統缺乏優先抓取權威信源的邏輯設計,二是受限於網絡訪問權限無法爬取一手數據。這種信息落差會對用户決策造成實質性誤導。」

此外,在簡單任務的表現上,Manus在效率上無法和更加垂直的產品相比,例如記者使用Manus耗時15分鍾生成了一張PDF版本的「招聘啟事」,而使用Kimi+的PPT生成功能,數分鍾就生成了8頁PPT招聘啟事。

這也許就是為何Manus團隊在產品爆火后給出了提示,稱「大家目前看到的Manus還是一個襁褓中的小嬰兒,離在正式版中想交付給大家的體驗還差很遠。像模型幻覺、交付物友好度、運行速度等方面都還有很大的提升空間。

外部關注度上升 Manus創新更多在產品層面而非模型層面

另一方面,同爲廣受關注的AI產品,相比DeepSeek,Manus在初期「爆火」的傳播路徑上有所不同:DeepSeek是從國外科技社區先行火爆,之后再傳回國內,而Manus則是由國內先行傳播,特別是首個詳細實測是從自媒體的公眾號開始,加上Manus產品創始人肖弘本身曾推出過微伴助手等企業微信營銷應用,因此對於Manus爆火是基於「營銷」的質疑始終不絕於耳。

但貝殼財經記者注意到,相比3月6日Manus初期火爆時外網平臺英文用户幾乎「無人問津」的態勢,近幾日英文用户對Manus的討論正開始逐漸增多,如谷歌搜索創始團隊成員DeedyDas在3月9日發文稱,「深度研究+自動操作+電腦使用+可愛+記憶功能,Manus就是我們所承諾應該有的AI Agent。」3月11日,貝殼財經記者發現X平臺上搜索靠前的關於Manus的討論均為英文用户。

田豐告訴貝殼財經記者,Manus作為產品的核心突破在於構建了任務調度引擎。具體來説有三個創新點:它能夠將複雜任務分解成清晰的子任務清單,比如完整展示調研步驟的邏輯框架;它像增強版搜索引擎,會主動抓取網頁資料進行歸納整理,而不是被動等待指令;它支持實時查看任務進度條,若其支持中段修改任務,理論上這種迭代機制能大幅提升效率。

在他看來,Manus目前短板也很明顯,根據他3月10日的實測,Manus執行復雜任務時超過40%會失敗,「例如我要求分析40個AI工具,系統需要在全流程中持續攜帶上下文,最終可能因為超出算力限制或服務器負載,任務崩潰了。可以説,當前Manus更適合生活場景而非專業場景。」

「坦率地説,目前用户能夠測試的Manus產品更像是0.1內測版本,而並非1.0版本,所以該產品需要快速迭代,纔不會偃旗息鼓。Manus展現了細粒度、開放性的任務流、自動化引擎,雖然有些磕磕絆絆,但給了大家很好的指向,同時這也是一款AI原生應用,因為只有通過多款大模型才能支持工具流。」田豐説。

3月11日,有消息稱Manus平臺將與阿里通義千問團隊達成戰略合作,對此,阿里通義方面回覆新京報貝殼財經記者稱,「Manus和通義千問確實在進行開源模型方面的合作。我們期待與更多全球AI創新者開展合作。」

由此來看,Manus的創新更多在產品層面而非模型層面,多位觀看Manus雲電腦窗口的用户告訴貝殼財經記者,看着Manus在窗口中「很努力」地執行任務,「一下子就理解了什麼是AI Agent」。智靈動力CTO朱旭琪則在接受貝殼財經記者採訪時表示,Manus把OpenAI曾展示過的「虛擬機」操作做出了比較好的交互性,可圈可點。

對於Manus所代表的AI Agent類產品在未來的發展,田豐認為,當前最大的阻礙是生態封閉。如當用户要求比價京東拼多多,Manus只能搜到新聞稿而拿不到真實商品數據,因為平臺屏蔽了搜索引擎爬蟲。解決路徑有兩個:一是通過生態協商開放MCP接口,二是模擬人類操作接管用户賬號完成動作。但兩者都存在現實阻礙——前者難過大廠的「護城河」,后者則需要用户交出賬號控制權存在信任危機。而一款AI Agent產品能否在這樣的困境中「突出重圍」,還需要多重考驗。

記者聯繫郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 岳彩周

校對 付春愔

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。