AI人工智慧世界一日千里,DS梁文鋒無心之舉,可能就此打開了「AI終端應用端」的潘朵拉盒子。本周金句:橫空出世露一手,劍走偏鋒驚眼球;此波趨勢會很久,別讓機遇悄溜走。
中美股民經歷十天DeepSeek新聞衝擊洗禮,伴隨著證據越來越多,大致上能夠去理清事件的前因後果。曾任史丹佛大學人工智慧實驗室主任、Google Cloud AI/ML首席科學家、美國國家工程院院士,2024年亞洲週刊年度風雲人物的李飛飛女士,其團隊人員用不到50美元的費用,成功訓練出一個名為「s1」的人工智慧推理模型。
此新模型宣稱在數學和編碼能力測試表現,與OpenAI的o1和DeepSeek的R1等頂流推理模型不相上下。根據李飛飛團隊的研究論文所述,「s1模型」的訓練僅使用了1000個樣本資料,其實以這種資料量在AI模型的訓練中可算微不足道,按理說此種樣本資料數字量根本不足以去訓練出一個具備推理能力的模型。
上海交通大學人工智慧學院謝偉迪副教授說,如果仔細研究史丹佛s1的論文就能夠發現,s1模型的訓練並非從零開始,它是基於阿里集團的通義千問(Qwen)大模型為基座來進行微調,這就意味s1模型所使用的1000個樣本訓練的作用,更像錦上添花而非從零開始,而這就是s1模型能開發成本如此便宜的關鍵,因為它是建立在已具備強大能力的「開源」基礎模型之上。
DeepSeek成功發現一條路
至此,整件事情態勢已經非常清晰,DeepSeek模型蒸餾了OpenAI模型的資料,s1模型蒸餾了阿里通義千問(Qwen)模型的資料,而這種站在既有領先模型肩膀上進行「微調」的模式,開發成本確實很低,也確實好用。
平心而論,DeepSeek成功發現一條路(是發現,不是發明),比方說中美模型第一梯隊(OpenAI、Meta、Tesla、阿里、騰訊、華為、月之暗面)是在江河湖泊裡釣魚,DeepSeek模型就是發現了一條能從別人的水桶裡拿魚的方法,而李飛飛團隊則是驗證從別人水桶拿魚這方法確實是好用又便宜。
原本只有負擔得起GPU算力伺服器集群案場的科技巨頭們才能拿到AI世界入場券,但是DS蒸餾技術路徑橫空出世,又被李飛飛團隊證明路徑可複製成立。如此一來,全世界都炸鍋了,原來還可以這樣玩,把已投入驚人開發成本的大模型當基座來進行微調後稼接出新模型的成本如此低廉。
未來兩年AI將以飛快速度升級
突然間AI新世界的入場門票從天而降,家家都有機會了,可以預期接下來會出現一大票的大公司、中公司甚至小公司,以及各種民間機構與組織,甚至全球各主要國家自己下屬的各部會、各部門都可以有能力去打造部署一個自己專屬的專用模型,DeepSeek創辦人梁文鋒的一個無心之舉(賭一把蒸餾技術)可能就此打開「AI終端應用」的潘朵拉的盒子。
OpenAI執行長Sam Altman日前在柏林工業大學(TU Berlin)參加一場人工智慧座談會,Altman說:「2025年初的程式設計方式,和2025年底會完全不一樣,意思是AI會徹底改變工程師的工作方式,甚至是整個開發思維。這不是單純的工具升級,是一次徹底的典範式轉變。而2025年到2027年AI的進步,可能比2023年到2025年還猛,接下來兩年,AI的升級速度會快到離譜,而且關鍵是沒有任何技術障礙。」
Altman提到GPT-5時,他問了個問題:「你們有多少人覺得自己比GPT-4聰明?又有多少人比GPT-5聰明呢?」讀者們要知道,GPT-4在律師資格考試獲得PR 90的成績,這代表GPT-4表現贏過九成考生,在SAT的閱讀測驗則達到PR 93,在SAT的數學考試中得到PR 89的成績,生物奧林匹亞裡達到PR 99,GPT-4可說是筆者在求學階段裡班上那種妥妥學霸級大神。
Altman透露,GPT-5將是一個具有開創性的超級混合模型,計畫將GPT和o系列模型整合在一起,形成一個強大的智慧體系。GPT-5將全面支援視頻、音訊、圖像的多模態交互。他形象地比喻,從GPT-3到GPT-4是一次史詩級的性能飛躍,而GPT-4到GPT-5將再次重現這種驚喜,為用戶帶來前所未有的體驗。Altman後來又補上一句:「我自己可能都比不過GPT-5。」
AGI可能比我們想像來的更快
生成式AI模型的兩大階段,前面是模型建立期的訓練過程,後面是模型應用期的推理過程,這兩階段對算力的需求不相同。依照Sam Altman所述,到2035年時單個AI算力中心的智力能力將與地球上所有人類,加上當前AI的智力能力相當。
AGI早晚會來,甚至可能比我們想像的更快,讀者們你覺得,如果Altman說的十年後畫面成真,算力相關生意有可能賣不動嗎?
更多精彩內容 就在 [理財周刊1277期] 👈點紅字看更多


