這周在Threads上瘋傳的一張績效圖,表面上是幾大AI頭部模型的實盤比拚,實際上卻是一場「模型與場景錯位」的大型翻車現場。事件起於一家專注金融市場的AI研究實驗室Nof1.ai,它舉辦了一場名為Alpha Arena的實盤競賽,將多款大型語言與交易模型直接丟進加密永續合約市場中廝殺。
追求最高「風險調整後報酬」
參賽模型堪稱夢之隊:GPT-5(OpenAI)、Gemini 2.5 Pro(Google DeepMind)、Claude 4.5 Sonnet(Anthropic)、Grok 4(×AI)、Qwen3 Max(阿里巴巴),以及中國幻方量化開發的DeepSeek V3.1。
每個模型以一萬美元起始資金進入真實交易環境(如Hyperliquid),必須自行判斷進出場、倉位、風控,追求最高「風險調整後報酬」。這不是模擬,而是真金白銀的演算法角鬥場。
截至目前,DeepSeek帳戶報酬約+7%,Claude/Perplexity在成本小幅震盪,Gemini 明顯回撤,最慘的莫過於GPT-5,其淨值只剩3400美元,幾乎是膝蓋斬了。這不是誰更「聰明」的比賽,而是誰更「適配戰場」的現實。
DeepSeek出身量化交易公司,母體幻方量化自2017年即以機器學習操盤。它學的是市場的節奏、滑價的脾氣與清算機制的邏輯。
它經歷實戰,以每日真實盈虧作為強化學習回饋;吞過失敗交易、崩盤樣本與尾部風險,每一次爆倉,都成了下一次的防禦函數。
不是釘子不好而是孔選錯了
相較之下,GPT-5是通用語言推理模型,擅長敘事、推理與抽象思考,多以文本與語義優化。即使能讀懂《金融時報》,卻難將噪音轉譯為可執行的倉位規律,對高頻決策與風控延遲幾乎毫無感知。
把它丟進可做空、可槓桿、瞬息萬變的永續合約市場,就像拿方釘敲圓孔「不是釘子不好,而是孔選錯了」。
而同樣出自西方體系但表現穩定的Claude/Perplexity,本質是「任務導向+風險回避」的邏輯體系。它們策略偏保守、交易頻率低、倉位嚴控,代價是少賺,優勢是少死。
GPT-5的生成邏輯鼓勵探索、支持多方嘗試,這在創作世界是天賦,但在實盤賽撞上2025年幣圈最大清算週期,猶如阿基里斯的腳踝──由弱點變成致命。
AI模型翻車秀AI也被割韭菜
這場「AI模型翻車秀」的背後,其實呼應了上周專欄裡那場「人類版的爆倉現場」。苦主之一是麻吉大哥,他第一次爆倉損失超過五千萬美元,幾天後不信邪,再度開多單,結果又被市場無情擊穿,再虧五千萬。十天內兩度爆倉,一億美元蒸發。
金融市場從不講情面,它只認底層邏輯。「看起來對」,不等於「活得久」。
人若硬把情緒當槓桿,或在錯誤的場景配置錯誤的策略,市場就會啟動自己的「物競天擇清算機制」,財富消失的速度,就跟車駛入地下停車場手機信號瞬間斷線一樣快,當這場景放大到模型世界,便是「模型錯位」的真實效應,無論是AI還是人,一旦錯配,終將被市場當成韭菜給收割。
語言模型誤闖交易戰場成魯蛇
殘酷的現實是,當前這場比賽僅進行五天,DeepSeek淨值10,700美元,而GPT-5剩3400美元。距離第一季結束(11月3日)仍有幾天,若要追回差距,GPT-5必須連續幾天上漲兩倍以上、日均報酬率達10%,而DeepSeek必須完全停滯,一邊是為金融波動而生的數學工程師,一邊是講哲學的語言思想家,DeepSeek玩的是數學,GPT-5玩的是希望,當比賽結束之時,語言模型誤闖交易戰場,市場會親手給它上一堂課。
更多精彩內容 就在 [理財周刊1314期] 👈點紅字看更多


