繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華爾街之狼,與AI共舞

2025-10-28 16:01

金融領域的AI用户們,對AI的「開發程度」超乎我們的想象。這次的「華爾街之狼」,是AI。

今年10月17日至11月3日(預計),由Jay Azhang創辦的Alpha Arena實驗室在互聯網發起了一場加密貨幣的實時AI交易競賽。

比賽規則如下:

  • 參與模型:共涉及6個全球頂尖AI模型,包括GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max。
  • 初始資本:每個模型分配10,000美元的真實資金。
  • 交易標的: BTC、ETH、SOL、BNB、DOGE、XRP等主流加密貨幣永續合約自主交易。
  • 交易平臺:所有交易均在 Hyperliquid 上執行,確保資金安全和交易透明度。
  • 比賽時間: 2025年10月18日開始,持續進行。

簡單來説,比賽規則就是:所有模型獲得相同的初始資金和統一的實時數據源,在無人類干預下自主決策交易——包括策略生成、倉位管理、開平倉時機和風控設置。

同時設置一個基準選手,簡單買入並持有BTC策略,用來對比驗證AI模型的收益表現。

為增加曝光度,比賽甚至引入了第三方預測市場Polymarket:觀眾可以對哪家AI會最終勝出下注押注,形成一個伴隨競賽進行的元賭局。

整個過程公開透明:nof1.ai官網實時展示所有模型的持倉、交易記錄和決策日誌。

這些AI如同被送上無人駕駛的過山車,必須依靠自身「經驗」應對市場的劇烈波動。

任何一次判斷失誤,市場都會毫不留情地給出懲罰。

傳統的AI評估,無論是要求模型編寫代碼、做數學題還是撰寫文章,本質上都是在「靜態」環境中進行測試。

問題是固定的,答案是可預測的,甚至可能大部分已經在訓練數據中出現過。

但加密市場不同。

由於信息極度不對稱,價格每分每秒都在波動——沒有唯一的答案,只有盈利和虧損。更重要的是,加密貨幣市場是一個典型的零和博弈:你的利潤就是別人的損失。

中國模型領跑:Qwen險中求勝,DeepSeek穩中有升

經過一周多的實盤廝殺,中國的大模型在這場競賽中拔得頭籌,而西方模型差距則越拉越大。

根據10月23日前后的公開數據,阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1雙雙實現賬户盈利,分列榜單第一、二名;相比之下,OpenAI、Google等模型多數本金虧損過半,凸顯出截然不同的「多空人生」。

具體來看,Qwen3 Max展現了險中求勝的機會主義風格:它一度在前期表現平平,起步階段甚至略有虧損(首日回撤約5%)。

然而在10月19-20日市場劇烈上漲時,Qwen果斷重倉做多BTC/ETH並大膽使用高槓杆(據稱一度開出了20倍槓桿BTC永續多單),憑藉這次押注在隨后幾天賬户資產扶搖直上,實現了兩位數的累計收益率。

截至10月23日,Qwen3 Max賬户價值較初始上漲約13%-47%不等(不同統計口徑差異),一舉從中游逆襲登頂榜首。Qwen的交易頻率反而相對較低,幾乎把寶押在單一資產上,平均持倉時長達7小時以上,生動解釋了「少即是多」。

與Qwen的激進風格形成對比,DeepSeek V3.1始終保持穩健盈利:它在競賽初期曾一路領先  ——開賽三天賬户價值衝高到14150美元(+40%) 。

DeepSeek的策略被形容為「耐心的狙擊手」 :總共只下了6筆訂單,平均單筆持倉超過21小時 。它在六種加密資產上都有所佈局,持倉組合高度多元化且槓桿適中,嚴格遵守預設的止盈止損紀律 。

正因如此,當市場在10月21日前后出現回調時,DeepSeek及時收縮戰線,避免了利潤的大幅回吐:截至23日仍保持約+8%至+21%的淨收益,穩居第二。

這樣「小虧不放過,大盈拿得住」的紀律性,也印證了其背后研發團隊的量化對衝基金背景。

而西方模型則多陷入「快速虧光」的窘境。

其中表現最慘烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。

GPT-5本被寄予厚望,但在實盤中卻頻繁追漲殺跌、情緒化操作:幾筆小額交易錯失行情,加上止損設定不當,短短數日虧損已近30%-40%。據后續統計,GPT-5到一周時賬户縮水甚至高達65%-75%,成為「虧損之最」。

Gemini 2.5 Pro的問題更在於過度交易和濫用槓桿:它幾乎無分晝夜地下單,平均每日多達15次進出場 。據統計,Gemini在前三天就進行了44次交易,累積支付了近440美元手續費,直接蠶食了將近三分之一本金!

更糟的是,Gemini一開始看空做空,錯過了10月19日的大漲行情后又在高位匆忙翻多,動輒使用最高40倍槓桿,結果遭遇行情反轉幾近爆倉,首周虧損超過55% 。這樣「猛踩油門又急剎車」的操作也令人大跌眼鏡。

相比之下,xAI的Grok-4和Anthropic的Claude Sonnet 4.5雖然沒有爆倉式慘敗,但也未能倖免虧損。

Grok-4憑藉對社交媒體情緒的敏鋭捕捉,一開始僅用一筆長達54小時的持倉便豪取+35%的收益。然而好景不長,隨着后續行情變化,Grok沒能鎖定勝局,回吐了大部分利潤,迄今淨收益轉為約-15%左右。

Claude Sonnet 4.5則全程謹慎保守,只下了寥寥3單,在前幾日曾有+24%的漲幅 。它大量資金閒置觀望,以致錯過行情,最終收益也掉頭轉負約-17%。

值得一提的是,Claude雖然盈利不多,卻一度創造了所有模型中最優的夏普比率,這説明「穩健不過山,有時勝過猛盈利」 。

夏普比率是衡量投資在承擔每一單位總風險(波動率)時能獲得多少超過無風險利率的超額收益的指標,計算式為:(投資組合預期收益率 − 無風險利率) ÷ 投資組合標準差,常用於評估和比較基金或組合的風險調整后收益,數值越高通常代表「性價比」越好。

此外,用來對照的「買入並持有BTC」基準策略在此期間盈虧基本持平,並未大幅跑輸或跑贏這些AI模型。

這場看似「娛樂化」的AI交易大戰,實則是一場關於智能邊界的深度實驗,當算法被放進真實市場,語言模型的「聰明」不再是唯一的勝負手。

當AI開始在沒有標準答案的世界里試錯,人類第一次有機會觀察人工智能如何在風險中學習、在波動中成長。這次實驗只是開始,借貸、投資、財富管理等所有金融行為都可以用AI重做一遍,股市、房市、匯市、債市的智能體將輪番來到華爾街辦公桌上。考驗投資機構膽量的時候到了,誰敢確認自己拿到的不是GPT?

或許,這纔是真正的「通用智能」測試場——最好的評委,是市場。

本文來自微信公眾號「極新」,作者:王子,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。