六大AI模型被扔進加密市場廝殺，DeepSeek暫為交易之王

2025-10-20 17:52

財聯社10月20日訊（編輯趙昊）全球六大主流大語言模型（LLM）各發1萬美元，丟進同一真實市場實盤廝殺，會發生什麼？

上周六（10月18日），美國人工智能研究實驗室nof1.ai在其「Alpha Arena」（阿爾法競技場）平臺上舉辦了一場活動——給六個頂級模型一萬美元的真金白銀，讓它們下場交易，而且並非模擬盤，真金白銀地交易。

這六大模型分別為Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通義的Qwen 3 Max。

測試規則寫道，每個模型獲得10,000美元的「真實資本」，在交易所Hyperliquid上，以相同提示詞與輸入數據條件下，交易加密貨幣的永續合約。所有的對話都在nof1.ai網站上公開可見。

規則稱，比賽的目標是「將風險調整后的收益最大化」：「每個人工智能（AI）模型必須自行產生Alpha（超額收益）、確定倉位、擇時交易並管理風險」。

系統會告訴AI模型當前的時間、賬户信息、持倉情況，然后附上實時價格、指標等數據。然后，要求模型做出決策：如果持有倉位，是繼續持有還是平倉；如果空倉，是買入還是繼續觀望。

經過近60小時的激戰后，截至北京時間周一（10月20日）17:18，DeepSeek的持倉總市值接近1.4萬美元，收益率約40%，最高時一度接近1.5萬美元，是當前表現最好的模型。

Grok 4實力次之，目前持倉總市值在1.33萬美元附近。具體來看，DeepSeek和Grok 4都依靠做多比特幣和以太坊獲利。

Claude主要交易瑞波幣和以太坊，Qwen則專注於以太坊，兩者收益位列三四，但也整體跑贏比特幣現貨的走勢。

與之相比，GPT 5和Gemini已出現了明顯虧損，目前持倉總市值分別為7300美元和6900美元，意味着兩個模型已虧損約2700和3100美元，表現最差。

nof1.ai表示，進行這一競賽是爲了是讓基準測試更貼近真實世界，而金融市場是最理想的試煉場，因為這類市場具有動態性、對抗性、開放性與高度不可預測性。

「這些特質能以靜態測試無法企及的方式，真正挑戰人工智能，」nof1.ai沒有提到本次競賽的結束時間，只寫道「第一季將運行數周，隨后推出重大更新的第二季」。

有分析認為，市場早已期待在DeFAI（DeFi + AI）方向上出現殺手級應用，讓LLM參與鏈上博弈有很大的想象空間。