融合 Claude Opus、GLM 及 Qwen AI「縫合怪」模型輕巧勝過阿里巴巴 35B

商傳媒｜責任編輯／綜合外電報導

一名 AI 工程師 Kyle Hessling 近期透過結合多款頂尖大型語言模型（LLM），成功打造出一個 180 億參數的「縫合怪」（frankenmerge）模型。這款模型不僅能在消費級硬體上執行，其表現更超越了中國科技巨擘阿里巴巴（Alibaba）旗下更大規模的 350 億參數模型，展現了開源社群在 AI 技術整合上的巨大潛力。

根據《Decrypt》報導，Kyle Hessling 將來自 Jackrong 開發的兩個微調模型——Qwopus 3.5-9B-v3.5（融合了 Claude 4.6 Opus 的推理風格）以及 Qwen 3.5-9B-GLM5.1-Distill-v1（基於 z.AI 的 GLM-5.1 教師模型訓練）——以「直通式縫合合併」（passthrough frankenmerge）技術進行整合。他將前者的 0 至 31 層與後者的 32 至 63 層堆疊，形成一個總共 64 層的新模型。

突破硬體限制　低功耗超越大型模型

這項創舉面臨的挑戰之一是 Qwen 3.5 混合線性/全注意力架構，現有合併工具無法直接支援。Kyle Hessling 為此開發了客製化的合併腳本，並在初步合併後，透過 QLoRA 技術進行了 1,000 步的「修復微調」（heal fine-tune），以解決模型層邊界造成的混亂程式碼輸出問題。

最終誕生的 180 億參數模型在 44 項能力測試中通過了 40 項。最引人矚目的是，它在 Q4_K_M 量化後僅需 9.2 GB 的顯示記憶體（VRAM），理論上可在 NVIDIA RTX 3060 等相對平價的繪圖處理器（GPU）上運作。相較之下，阿里巴巴的 Qwen 3.6-35B-A3B MoE 模型需高達 22 GB 的 VRAM，但在測試中卻被 Kyle Hessling 的「縫合怪」模型超越。

過度推理成瓶頸　仍具廣泛應用潛力

然而，該模型也存在挑戰。測試發現，其在某些任務上會出現「過度思考」的現象，產生冗長的推理鏈，甚至達到令牌限制（token limits）。例如，要求模型生成一個貪食蛇遊戲的程式碼時，竟耗費超過 40 分鐘進行推理。這種傾向在 Qwopus 系列中已是已知問題，由於堆疊了兩個推理蒸餾模型，可能使此行為在特定提示下被放大。這對於希望在消費級硬體上運行嚴肅應用程式的用戶而言，可能成為日常使用上的瓶頸。

儘管如此，這項成就凸顯了開源社群的創新力量：一位匿名的開發者發布專業微調模型與訓練指南，另一位愛好者則利用客製腳本進行堆疊與修復，最終創造出一個比大型實驗室發布模型更小、性能更佳的模型。這款模型在發布的頭兩週內便累積超過三千次下載，顯示其廣受關注。這類「從底層解決方案到專業化」的開源協作模式，正逐步縮小個人專案與前沿部署之間的差距，讓更多開發者能夠參與其中。

國內新聞

融合 Claude Opus、GLM 及 Qwen AI「縫合怪」模型輕巧勝過阿里巴巴 35B

突破硬體限制　低功耗超越大型模型

過度推理成瓶頸　仍具廣泛應用潛力

【延伸閱讀】

國內新聞

融合 Claude Opus、GLM 及 Qwen AI「縫合怪」模型輕巧勝過阿里巴巴 35B

突破硬體限制 低功耗超越大型模型

過度推理成瓶頸 仍具廣泛應用潛力

【延伸閱讀】

突破硬體限制　低功耗超越大型模型

過度推理成瓶頸　仍具廣泛應用潛力