AI 邁向自我進化:MIT 發表 SEAL 架構,讓語言模型學會「自我編輯」與參數更新
編輯核心觀點
- ✦麻省理工學院(MIT)提出 SEAL 框架,使大型語言模型能透過強化學習生成合成數據並自我更新權重。
- ✦該技術透過「自我編輯」機制,在知識整合與少樣本學習任務中表現優於傳統基準,甚至在特定測試中超越 GPT-4.1 生成的數據。
- ✦此研究為 AI 自我進化領域的重要進展,與近期學界對於機器人供應鏈自主化及遞迴自我改進 AI 的討論互相呼應。

AI 自我進化:從理論走向實作
人工智慧的自我進化(Self-improvement)近期成為學術界熱門議題,OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來機器人能操作供應鏈、自行建造晶片廠與資料中心的願景。在此背景下,麻省理工學院(MIT)的研究團隊發表了一篇名為《Self-Adapting Language Models》的論文,正式提出 SEAL(Self-Adapting LLMs) 框架,為 AI 自我進化提供了具體的技術實證。
SEAL 的運作機制:雙迴圈學習架構
SEAL 的核心概念是讓語言模型在接觸新數據時,能透過生成「自我編輯(Self-edits, SE)」來優化自身參數。該框架將訓練過程設計為兩個巢狀迴圈:
- 外部強化學習(RL)迴圈: 優化自我編輯的生成過程,模型根據下游任務的表現獲得獎勵。
- 內部更新迴圈: 利用生成的自我編輯,透過梯度下降(Gradient Descent)更新模型權重。
研究人員指出,傳統的線上策略方法(如 GRPO 或 PPO)在訓練過程中容易不穩定,因此最終採用了源自 DeepMind 論文、基於過濾的行為複製方法 ReST^EM。這種方法類似於期望最大化(EM)過程,透過篩選出能帶來正向獎勵的樣本進行監督式微調。
實驗成果:超越傳統基準
研究團隊在「知識整合」與「少樣本學習(Few-shot learning)」兩個領域測試了 SEAL 的效能:
在少樣本學習任務中,使用 Llama-3.2-1B-Instruct 模型,SEAL 的適應成功率達到 72.5%,顯著高於使用基礎自我編輯(無強化學習)的 20% 以及無適應能力的 0%。
在知識整合任務中,研究人員使用 Qwen2.5-7B 模型整合 SQuAD 文章中的新事實。實驗顯示,SEAL 不僅穩定優於基準方法,且在經過兩次外部強化學習迭代後,其準確度往往能超越使用 GPT-4.1 生成數據的設定。
技術挑戰與未來展望
儘管 SEAL 展示了顯著的進步,但研究團隊也坦言該框架目前仍面臨挑戰,包括災難性遺忘(Catastrophic forgetting)、計算開銷過大,以及依賴上下文的評估限制。此外,雖然目前的實作是由單一模型執行生成與學習,但研究人員指出,未來可透過「教師-學生」架構將這兩個角色分離,進一步提升系統的靈活性與效率。



