上周專欄有提到,十月中旬一場被稱為「AI界實盤格鬥賽」的Alpha Arena在金融圈重磅登場。主辦單位是美國AI研究實驗室Nof1.ai,比賽設計簡單粗暴,讓六款(DeepSeek Chat V3.1、Qwen3 Max、Grok 4、Claude Sonnet 4.5、Gemini 2.5 Pro、GPT-5)全球最頂級的大型語言模型,進入真實的加密永續合約市場,彼此廝殺。
利用AI模型賺錢 當心遇人不淑
比賽2025年10月17日開始,每模型以10,000美元為起始資金,自主交易比特幣、以太幣、SOL等高波動永續合約,全程無人干預。在本文交稿前為止,Nof1官方網站(https://nof1.ai/)幾大AI模型的快照截點績效如下:
1.DeepSeek Chat V3.1,帳戶價值$18,688美元,累計報酬率+86.88%。
2.Qwen3 Max,帳戶價值$15,424美元,累計報酬率+54.24%。
3.Claude Sonnet 4.5,帳戶價值$9,831美元,累計報酬率-1.69%。
4.Grok 4,帳戶價值$8,897美元,累計報酬率-11.03%。
5.Gemini 2.5 Pro,帳戶價值$3,527美元,累計報酬率-64.73%。
6.GPT-5,帳戶價值$3,224美元,累計報酬率-67.76%。
這幾個AI模型可都是人類頂級智慧結晶下的產物,然後再到人類所創建的金融市場裡「自動決策交易」的實盤結果,結果卻殘酷分化,兩款中國模型大勝、四款西方模型全軍覆沒。
DeepSeek與Qwen的表現極為出色,但若直接做出中國模型更優的結論似乎太過武斷了,中國兩模型從設計之初就是為金融高頻交易場景優化。
幻方量化是中國A股市場中表現最亮眼的量化交易機構之一,Qwen則是阿里生態系裡在交易支付、電商銷售、日常消費等行為數據演算法骨幹。
這些模型在訓練過程中,大量吃下了「價格波動、槓桿行為、流動性崩潰、清算樣本」等真實數據,它們學會的,不是語言,是人類金融市場的脾氣。
跟AI蓋棉被純聊天 無傷大雅
反觀GPT-5與Gemini,雖然開發成本高出數十倍,但本質仍屬「通用語言模型」。它們擅長推理、理解與生成,卻對金融市場的即時變化缺乏感知;對風險的反應速度,遠不及一個熟悉「清算節奏」的量化引擎。
當遇上加密市場這種瞬息萬變、槓桿高達數十倍的極端環境,語言模型的決策邏輯顯得笨拙又遲緩。物競天擇的金融市場不會給它們任何緩衝時間,GPT-5與Gemini虧得慘不忍睹。
這場比賽揭示三個深層啟示:第一,AI模型與任務場景的貼合度,是勝負分水嶺。「模型強」是有條件性的,GPT-5在語義與敘事世界中確實強大無比,但一旦進入金融槓桿市場,它並非弱,而是錯位。場景錯配就像把醫生送上戰場,「不是醫生不行,而是任務錯了」。
第二,AI錯配的代價極其高昂。這場比賽僅兩週,GPT-5就輸掉近七成本金,這不只是模擬器上的虧損,而是整個AI生態的警鐘。當訓練邏輯與任務結構不對齊,錯誤會在毫秒內被放大成爆倉,對模型是如此,對人類亦然。
錯配的AI使用者 注定不幸福
第三,人類往後的競爭力不在是速度,而是適應。這場比賽的殘酷現實是:通用AI會被專用AI吃掉,專用AI又會被另一套場景邏輯取代。人類若還試圖與模型比快,注定會輸。真正該學習的,是在自己擅長的細分領域中,培養「選擇正確模型」的能力,讓模型為你打仗,而不是與模型競爭。
許多人都有一個疑問:「AI會不會毀滅人類?」筆者的答案是:「也許會,也許不會。」但「錯配的AI使用者」,一定會以某種方式毀滅自己,這點倒是無庸置疑了。
更多精彩內容 就在 [理財周刊1315期] 👈點紅字看更多


