AI 進化論新篇章:MIT 發表 SEAL 架構,讓大型語言模型學會「自我改寫」
編輯核心觀點
- ✦麻省理工學院(MIT)研究團隊提出 SEAL 架構,透過強化學習讓大型語言模型能自動生成訓練數據並更新權重。
- ✦該技術在知識整合與少樣本學習任務中表現優異,甚至在兩次迭代後即超越使用 GPT-4.1 生成數據的基準測試。
- ✦此研究為 AI 自我演化領域提供具體實證,解決了傳統線上策略方法在訓練過程中的不穩定問題。

AI 自我演化:從概念走向實踐
人工智慧的「自我改進」能力近期成為學術界與產業關注的焦點,OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來 AI 與機器人能自行運作供應鏈、建造數據中心與晶片廠的願景。在此背景下,麻省理工學院(MIT)研究團隊發表了一篇名為《Self-Adapting Language Models》的論文,正式推出 SEAL(Self-Adapting LLMs) 架構,為 AI 自我演化提供了具體的技術路徑。
SEAL 如何運作:雙層迴圈機制
SEAL 的核心概念在於讓語言模型在接觸新數據時,能透過「自我編輯(Self-editing)」生成合成數據,並藉此優化自身參數。該架構本質上是一種元學習(Meta-learning)應用,運作機制包含兩個嵌套迴圈:
- 外部強化學習(RL)迴圈: 優化自我編輯內容的生成。
- 內部更新迴圈: 利用生成的自我編輯內容,透過梯度下降更新模型權重。
研究團隊指出,傳統的線上策略方法(如 GRPO 或 PPO)容易導致訓練不穩定,因此他們改採 DeepMind 論文中提出的 ReST^EM 方法,這是一種基於過濾的行為複製過程。模型透過執行動作(生成自我編輯內容),根據後續任務的表現獲得獎勵,進而更新策略以最大化預期收益。
實驗成果:超越傳統基準
研究團隊將 SEAL 應用於「知識整合」與「少樣本學習」兩大領域,實驗結果顯示其具備顯著的適應能力:
在少樣本學習任務中,使用 Llama-3.2-1B-Instruct 模型,SEAL 的適應成功率達到 72.5%,遠高於基礎自我編輯模型的 20%。
在知識整合任務中,研究人員使用 Qwen2.5-7B 模型整合 SQuAD 文章的新資訊。結果顯示,SEAL 不僅穩定超越基準方法,且在經過兩次強化學習迭代後,其準確度往往能超越使用 GPT-4.1 生成數據的設置。
技術限制與未來展望
儘管 SEAL 在實驗中展現出強大的潛力,研究人員亦在論文中坦言該架構仍面臨挑戰,包括災難性遺忘(Catastrophic Forgetting)、運算資源開銷,以及與情境相關的評估問題。目前該研究已在 GitHub 上開源,為持續演化智慧系統的研究提供了重要參考。



