如果英國鐵路狂飆的終局是「維多利亞盛世」(Victorian Era),那美國歷史上能夠完美對應這段基建大爆發、資本大狂歡的時期,叫做「鍍金時代」(The Gilded Age)!
當這些基礎設施(電力、公路、電話線)鋪設完畢後,引發民間消費與科技應用全面噴發時則是被稱為「咆哮的二十年代」(Roaring Twenties)。若將這兩次歷史鏡像套進TurboQuant橫空出世後的AI趨勢大局,讀者會發現歷史的重演有多麼驚人。
記憶體未來需求暴跌80%?
Google發表「TurboQuant」技術,宣稱能將大型語言模型(LLM)推理時的KV Cache大幅壓縮六倍。這則新聞一出市場立刻陷入集體恐慌,機構投顧「立即」調降記憶體需求預測,引發了一波猛烈的科技股拋售潮。
這些線性分析人員的Excel試算表邏輯非常簡單且粗暴,即原需要六顆高頻寬記憶體(HBM)才能跑得動的模型,現在只要一顆就夠了。所以,記憶體的未來需求「將直接暴跌80%!」
AI趨勢決不是容量固定的水桶
這些人把引領百年變革的AI趨勢(訓練、推論、AI Agent…)去當成一個「容量固定、永不成長的水桶」,但歷史上真實的科技發展史與底層經濟學,從來都不是這樣運作的。
若威廉.斯坦利.傑文斯(William Stanley Jevons)的理論是正確的,即當技術進步提高某種資源的使用效率時,該資源的總消耗量不僅不會減少,反而會因為「成本大幅下降」而呈現指數級的暴增。
華而不實的理論多了去了,但回想4G技術剛問世時資料傳輸的壓縮率與效率大幅提升,按線性邏輯推演,電信流量應該會銳減。
但結果呢?因為傳輸成本暴降,人類開始瘋狂刷短影音、看串流,最終行動數據消耗量暴增了數萬倍。效率提升是需求爆發的催化劑,傑文斯悖論在歷史長河裡可是對了好幾次。
讓老闆埋單的AI Agent PC甜蜜點
前兩年AI只能作為一個單次觸發的「聊天機器人」,你若把一個聰明到能看懂複雜財報的Agent硬塞進筆電裡,光是模型權重加上龐大的KV Cache,可能就需要消耗80GB甚至128GB的記憶體,而一台頂配加上128GB高速記憶體的AI Agent筆電,要價絕對超過十萬台幣!
就算這個AI助理Jarvis再好用,老闆們在看見報價後也會直接否決。但假如KV Cache壓縮了六倍,成千上萬個AI Agent將會像當年的福特T型車一樣走下生產線,無孔不入地衝進每一個企業的桌上型電腦裡。
因為原本需要128GB才能跑動的頂級Agent,現僅32GB或64GB的記憶體就能在筆電上流暢運行,當AI Agent PC價格落在三萬到四萬台幣之間,從降本增效角度,這價位應該是老闆點頭同意購買的「甜蜜點」。
線性分析師以為單台電腦需要的記憶體變少是利空,但他們連最基本的小學數學都算錯:100萬名極客買128GB的昂貴AI Agent電腦=消耗1.28億GB記憶體,因為TurboQuant讓AI PC降價,全球五億個白領勞工全部被強迫從傳統的8GB升級到32GB標配(每台實質增加24GB)=消耗120億GB記憶體!
需求暴增近百倍還是利空嗎?
總需求量不是減少,而是暴增了近一百倍!這就是需求從單次觸發的「事件」,演變成二十四小時全天候運作的「流量」的指數型失控。
如果我們把過去這三年(2023-2025),科技巨頭不計代價瘋狂買GPU、蓋資料中心的行為,比喻為十九世紀末美國大建鐵路與電網的「鍍金時代」,那麼TurboQuant演算法的出現,就是準備把AI從「鍍金時代的鋪軌期」,一腳踹進AI Agent大爆發的「咆哮的二十年代」!
更多文章就在 [理財周刊1337期] 👈點紅字看完整精彩內容


