返回首頁

挑戰 Transformer 霸權:AI 新創 Subquadratic 宣稱破解大型語言模型運算瓶頸

編輯核心觀點

  • AI 新創 Subquadratic 發表名為 SubQ 的新型模型,宣稱透過稀疏注意力機制解決了困擾大型語言模型近十年的運算瓶頸。
  • 該公司聲稱 SubQ 在保持與頂尖模型相當的程式編寫能力下,能處理多達 12 倍的文本量,並大幅降低能源消耗與運算成本。
  • 儘管第三方評測機構 Appen 已驗證其架構,但由於模型尚未開放公眾測試,業界對其是否真能取代 Transformer 架構仍持保留態度。
挑戰 Transformer 霸權:AI 新創 Subquadratic 宣稱破解大型語言模型運算瓶頸

總部位於邁阿密的 AI 新創公司 Subquadratic 近期走出隱身模式,拋出震撼業界的宣稱:他們已解決限制大型語言模型(LLM)發展近十年的數學瓶頸。該公司開發出一種名為「SubQ」的新型模型,據稱在處理速度、成本與能源效率上均優於市場現有產品。

從「密集」轉向「稀疏」:破解運算天花板

目前主流的 LLM 皆基於 Transformer 架構,其核心機制為「密集注意力(Dense Attention)」。當模型處理文本時,會將每個詞彙(Token)編碼為數字,並將每個數字與其他所有數字進行相乘。這種運算方式隨文本長度增加呈二次方成長,導致運算量極為龐大且耗電。Subquadratic 共同創辦人兼執行長 Justin Dangel 指出:

「如果你想總結《大亨小傳》,你必須同時查看第一個字和最後一個字,然後查看所有其他的組合。」

Subquadratic 的解決方案是捨棄密集注意力,轉而採用「稀疏注意力(Sparse Attention)」。該公司技術長 Alex Whedon 解釋,並非所有詞彙間的關係都具備關鍵意義,透過選擇性地進行乘法運算,能大幅削減運算需求。然而,這並非全新嘗試,曾任職於 OpenAI 的獨立 AI 研究員 Will Depue 表示:

「幾乎所有方法都曾被嘗試過。這並非不可能,但這就像要跑出四分鐘內跑完一英里的成績一樣困難。」

第三方驗證與業界質疑

Subquadratic 最初僅發布少量自測數據,引發外界高度懷疑。AI 工程師 Dan McAteer 曾在 X 上評論:

「SubQ 要麼是自 Transformer 以來最大的突破……要麼就是 AI 界的 Theranos(血液檢測詐騙案)。」

為回應質疑,Subquadratic 委託第三方評測機構 Appen 進行測試。Appen 生成式 AI 研究總監 Jeanine Sinanan-Singh 表示,測試結果驗證了該公司的架構,並稱其為「可能改變遊戲規則的技術」。儘管如此,SubQ 目前尚未廣泛開放供大眾測試,且該公司坦言,SubQ 並不會全面取代現有的頂尖模型。Justin Dangel 對未來充滿信心,他認為:

「我們不認為幾年後還會有人在 Transformer 架構上進行開發。」

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章