四維度實測更新后Manus：任務成功率上升，複雜任務仍難勝任

2025-03-12 07:33

專題：Manus引關注

最近一周，AI圈最熱的詞當屬Manus。作為北京紅色蝴蝶科技有限公司推出，尚處於封閉測試階段的創新型AI智能體產品，Manus在過去幾天既經歷了「下一個DeepSeek」的高規格讚譽，也經歷了因任務失敗率高等問題而引發的質疑。

北京時間3月10日至11日，Manus在官方社交平臺迴應了外界關切的各種問題，公司聯合創始人、首席科學家季逸超披露了Manus使用的底層模型與開源代碼。3月10日17點，Manus也進行了2小時的維護，季逸超表示，維護后Manus的故障率大幅下降，但系統壓力也更大，正努力解決問題。

Mnaus「更新前后」的產品表現有何不同？新京報貝殼財經記者對此進行了視頻、網頁、文字、遊戲四個維度的測試。測試發現，3月11日更新后，Manus任務的成功率確實有明顯進步，但也出現了「當前服務負載較高，無法創建任務」的情況。

「我們應該提倡各種AI原生的顛覆式創新，Manus團隊值得提倡和鼓勵，不是因為其營銷方式，而是因為他們正不斷追求新一代的AI原生應用模式和體驗，不管是新的交互方式、新的服務方式還是新的商業模式，對行業的發展都很重要。」快思慢想研究院院長，原商湯智能產業研究院創始院長田豐告訴新京報貝殼財經記者。

記者實測：更新后任務成功率從50%上升至66.66%

相比於大語言模型類產品的交互窗口是一個小小的對話框，Manus的優勢在於不僅可以思考，還可以執行用户的命令，且是完全「可視化」——通過屏幕右側「Manus的電腦」窗口，用户可以完整看到Manus從思考、瀏覽網頁到寫程序甚至檢測bug的全過程，這種產品設計帶給人的新奇感就猶如頭一次看到DeepSeek深度思考的過程一樣，這也是新京報貝殼財經記者體驗該產品的第一個感受。

但在體驗后，許多用户反饋Manus完成用户提交任務的成功率並不高。對此，3月9日至10日，記者向Manus提出了8項任務要求，其成功完成了4項任務，另有4項任務因各種原因未完成，照此計算，任務成功率為50%。

例如記者要求Manus以清朝康熙時期「九子奪嫡」為背景，使用Python設計一款「皇子模擬器」遊戲，其最初運轉良好，如使用4分鍾上網瀏覽資料，研究了清朝歷史和康熙九子奪嫡的背景，又分別花費2分鍾創建了皇子資料、實現遊戲介紹和角色選擇功能，並在15分鍾時完成了結局系統，但當其開始「測試遊戲功能並修復bug」時，程序出現了停滯不動的狀況，截至發稿時已過24小時，任務仍未完成。

而當記者要求Manus以貝殼財經已發佈的視頻為模板，新制作一個10秒鍾的視頻新聞時，Manus首先發現自己無法打開記者提供的抖音視頻鏈接，並首次「求助」了記者，但記者提供視頻后，其在「準備視覺素材」時再次陷入卡頓，任務未能完成。

Manus向記者「求助」要求提供視頻內容電腦截圖

而在已完成的4項任務中，有2項任務也並未達到及格水平。如記者再度嘗試進行視頻製作任務並直接提供素材后，Manus才成功完成了這一任務，但其提供的成品視頻中只有閃爍的文字內容，且文字最后溢出了屏幕，並未達到參考視頻的效果。

左為新京報貝殼財經記者提供的參考視頻，右為Manus生成的視頻電腦截圖

而3月11日Manus的更新后，記者向其提出了6項任務要求，Manus成功完成了4項，相比更新前，成功率達到了66.66%，而失敗的2項任務也並非中斷，而是在任務開始之前就提示「當前服務負載較高，無法創建任務。請幾分鍾后再試。」

對於更新后的Manus，季逸超表示，「好消息是，我們幾乎把Manus的上下文限制翻了一倍，還增強了沙盒硬件，使得故障率大幅下降。壞消息是，隨着故障率降低，現在會話運行時間變長了，系統‘汗如雨下’，失敗率又開始回升……只能暫時限制一下運行速度。我們正在努力解決……也許這就是封閉測試階段的‘魅力’所在。」

回答問題一般耗時15分鍾答案比大語言模型更全面但並非「無所不能」

貝殼財經記者測試發現，根據任務難度的不同，Manus執行任務的時間也不同，如對「設計採訪提綱與視頻採訪腳本方案」等幾項文字類任務，Manus的執行時間約為15分鍾至20分鍾，而對於「設計金融科普互動產品」這項涉及網頁交互的任務，Manus耗時31分鍾，最終成功製作出了一個可以進行互動的網頁產品，雖然其中一些具體場景的畫面仍未完成，處於「半成品」，但這已經超越了大語言模型產品的能力範圍。

Manus製作的金融科普互動產品，可以看到缺乏圖像，但下方試題已經可以與用户互動

貝殼財經記者通過實測發現，Manus執行任務的時間一般在15分鍾左右，對於文字類的回覆其執行相對輕松，並且能生成多個文檔。如記者同時對DeepSeek和Manus提出「瀏覽B站熱門視頻，推測可能爆火的科技新聞類選題，並設計文案」這一任務時，DeepSeek思考76秒后給出了回答，Manus則花費了超過15分鍾，但相比DeepSeek給出了單一的文字回答，Manus一口氣給出了包括「B站科技內容受眾分析」「B站熱門科技視頻分析」「潛在爆款話題分析」「視頻完整文案」在內的四個文檔，回答的內容更加充分。

當然，Manus也並非一個「無所不能」的AI助手，如記者下達一個設計漫畫作品的任務時，Manus只生成了文字框架和分鏡設計，表示「作為AI助手，我無法直接繪製圖像或創建視覺藝術作品」。同時，記者觀察Manus的雲端電腦發現，其在瀏覽網站時使用的是遊客身份，當遇到一些需要登錄才能瀏覽的內容，或者會員內容時，就會發生訪問失敗的情況，因此相比人類網絡用户，Manus受到的限制更多，這也增加了它任務失敗的概率。

田豐告訴記者，「在需要精準信源的領域，比如分析特斯拉股價，Manus只能抓取雪球、搜狐等二手信息，卻無法直接獲取財報原文。這可能涉及兩方面問題：一是系統缺乏優先抓取權威信源的邏輯設計，二是受限於網絡訪問權限無法爬取一手數據。這種信息落差會對用户決策造成實質性誤導。」

此外，在簡單任務的表現上，Manus在效率上無法和更加垂直的產品相比，例如記者使用Manus耗時15分鍾生成了一張PDF版本的「招聘啟事」，而使用Kimi+的PPT生成功能，數分鍾就生成了8頁PPT招聘啟事。

這也許就是為何Manus團隊在產品爆火后給出了提示，稱「大家目前看到的Manus還是一個襁褓中的小嬰兒，離在正式版中想交付給大家的體驗還差很遠。像模型幻覺、交付物友好度、運行速度等方面都還有很大的提升空間。

外部關注度上升 Manus創新更多在產品層面而非模型層面

另一方面，同爲廣受關注的AI產品，相比DeepSeek，Manus在初期「爆火」的傳播路徑上有所不同：DeepSeek是從國外科技社區先行火爆，之后再傳回國內，而Manus則是由國內先行傳播，特別是首個詳細實測是從自媒體的公眾號開始，加上Manus產品創始人肖弘本身曾推出過微伴助手等企業微信營銷應用，因此對於Manus爆火是基於「營銷」的質疑始終不絕於耳。

但貝殼財經記者注意到，相比3月6日Manus初期火爆時外網平臺英文用户幾乎「無人問津」的態勢，近幾日英文用户對Manus的討論正開始逐漸增多，如谷歌搜索創始團隊成員DeedyDas在3月9日發文稱，「深度研究+自動操作+電腦使用+可愛+記憶功能，Manus就是我們所承諾應該有的AI Agent。」3月11日，貝殼財經記者發現X平臺上搜索靠前的關於Manus的討論均為英文用户。

田豐告訴貝殼財經記者，Manus作為產品的核心突破在於構建了任務調度引擎。具體來説有三個創新點：它能夠將複雜任務分解成清晰的子任務清單，比如完整展示調研步驟的邏輯框架；它像增強版搜索引擎，會主動抓取網頁資料進行歸納整理，而不是被動等待指令；它支持實時查看任務進度條，若其支持中段修改任務，理論上這種迭代機制能大幅提升效率。

在他看來，Manus目前短板也很明顯，根據他3月10日的實測，Manus執行復雜任務時超過40%會失敗，「例如我要求分析40個AI工具，系統需要在全流程中持續攜帶上下文，最終可能因為超出算力限制或服務器負載，任務崩潰了。可以説，當前Manus更適合生活場景而非專業場景。」

「坦率地説，目前用户能夠測試的Manus產品更像是0.1內測版本，而並非1.0版本，所以該產品需要快速迭代，纔不會偃旗息鼓。Manus展現了細粒度、開放性的任務流、自動化引擎，雖然有些磕磕絆絆，但給了大家很好的指向，同時這也是一款AI原生應用，因為只有通過多款大模型才能支持工具流。」田豐説。

3月11日，有消息稱Manus平臺將與阿里通義千問團隊達成戰略合作，對此，阿里通義方面回覆新京報貝殼財經記者稱，「Manus和通義千問確實在進行開源模型方面的合作。我們期待與更多全球AI創新者開展合作。」

由此來看，Manus的創新更多在產品層面而非模型層面，多位觀看Manus雲電腦窗口的用户告訴貝殼財經記者，看着Manus在窗口中「很努力」地執行任務，「一下子就理解了什麼是AI Agent」。智靈動力CTO朱旭琪則在接受貝殼財經記者採訪時表示，Manus把OpenAI曾展示過的「虛擬機」操作做出了比較好的交互性，可圈可點。

對於Manus所代表的AI Agent類產品在未來的發展，田豐認為，當前最大的阻礙是生態封閉。如當用户要求比價京東拼多多，Manus只能搜到新聞稿而拿不到真實商品數據，因為平臺屏蔽了搜索引擎爬蟲。解決路徑有兩個：一是通過生態協商開放MCP接口，二是模擬人類操作接管用户賬號完成動作。但兩者都存在現實阻礙——前者難過大廠的「護城河」，后者則需要用户交出賬號控制權存在信任危機。而一款AI Agent產品能否在這樣的困境中「突出重圍」，還需要多重考驗。

記者聯繫郵箱：luoyidan@xjbnews.com

新京報貝殼財經記者羅亦丹

編輯岳彩周

校對付春愔

四維度實測更新后Manus：任務成功率上升，複雜任務仍難勝任

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？