AI 邁向自我進化:MIT 發表 SEAL 架構,讓語言模型學會「自我編輯」與參數更新
編輯核心觀點
- ✦麻省理工學院(MIT)研究團隊提出 SEAL 框架,賦予大型語言模型透過強化學習生成合成數據並更新自身權重的能力。
- ✦SEAL 採用雙迴圈機制,透過強化學習優化自我編輯策略,並結合監督式微調實現模型的持續自我適應。
- ✦實驗顯示,SEAL 在知識整合與少樣本學習任務中表現優異,甚至在僅需兩次迭代後即超越使用 GPT-4 生成數據的基準模型。

AI 自我進化:從理論走向實作
人工智慧的「自我進化」一直是近期研究圈的熱門議題,OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來機器人能操作供應鏈、自行建造晶片廠與資料中心的願景。在此背景下,麻省理工學院(MIT)發表了一篇名為《Self-Adapting Language Models》的論文,正式推出 SEAL (Self-Adapting LLMs) 框架,為 AI 邁向自我進化提供了具體的技術路徑。
SEAL 的運作機制:雙迴圈優化
SEAL 的核心概念在於允許語言模型在接觸新數據時,透過生成「自我編輯(Self-edits, SE)」來優化自身參數。這套系統本質上是一種元學習(Meta-learning),其運作包含兩個嵌套的迴圈:
- 外層迴圈(強化學習): 模型透過強化學習優化自我編輯的生成策略,獎勵機制取決於更新後的模型在目標任務上的表現。
- 內層迴圈(參數更新): 利用生成的自我編輯,透過梯度下降(Gradient Descent)更新模型權重。
研究團隊指出,傳統的線上策略方法(如 GRPO 或 PPO)在訓練時容易不穩定,因此最終選擇了源自 DeepMind 論文的 ReST^EM 方法。這是一種基於過濾的行為複製流程,將過程視為期望最大化(EM)處理:E 步驟從當前策略採樣候選輸出,M 步驟則透過監督式微調,僅強化那些能產生正向獎勵的樣本。
實驗成果:超越傳統基準
MIT 團隊在「知識整合」與「少樣本學習」兩個領域驗證了 SEAL 的效能:
在少樣本學習任務中,使用 Llama-3.2-1B-Instruct 模型,SEAL 將適應成功率提升至 72.5%,遠高於基礎自我編輯模型的 20% 與未適應模型的 0%。
在知識整合任務中,研究人員使用 Qwen2.5-7B 模型處理 SQuAD 文章中的新事實。結果顯示,SEAL 不僅能穩定超越基準方法,且在僅經過兩次迭代後,其準確度便經常超越使用 GPT-4.1 生成數據的設定。
現階段的挑戰
儘管 SEAL 展示了顯著的進步,研究人員也在論文中坦承該框架仍面臨多項限制,包括災難性遺忘(Catastrophic Forgetting)、運算資源開銷,以及與上下文相關的評估問題。目前 SEAL 的實作雖然由單一模型執行生成與學習,但研究團隊指出,未來亦可將這些角色拆分為「教師-學生」架構,以進一步優化訓練效率。


