AI 進化論新篇章：MIT 發表 SEAL 架構，讓大型語言模型學會「自我改寫」

AI 自我演化：從概念走向實踐

人工智慧的「自我改進」能力近期成為學術界與產業關注的焦點，OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來 AI 與機器人能自行運作供應鏈、建造數據中心與晶片廠的願景。在此背景下，麻省理工學院（MIT）研究團隊發表了一篇名為《Self-Adapting Language Models》的論文，正式推出 SEAL（Self-Adapting LLMs） 架構，為 AI 自我演化提供了具體的技術路徑。

SEAL 如何運作：雙層迴圈機制

SEAL 的核心概念在於讓語言模型在接觸新數據時，能透過「自我編輯（Self-editing）」生成合成數據，並藉此優化自身參數。該架構本質上是一種元學習（Meta-learning）應用，運作機制包含兩個嵌套迴圈：

外部強化學習（RL）迴圈： 優化自我編輯內容的生成。
內部更新迴圈： 利用生成的自我編輯內容，透過梯度下降更新模型權重。

研究團隊指出，傳統的線上策略方法（如 GRPO 或 PPO）容易導致訓練不穩定，因此他們改採 DeepMind 論文中提出的 ReST^EM 方法，這是一種基於過濾的行為複製過程。模型透過執行動作（生成自我編輯內容），根據後續任務的表現獲得獎勵，進而更新策略以最大化預期收益。

實驗成果：超越傳統基準

研究團隊將 SEAL 應用於「知識整合」與「少樣本學習」兩大領域，實驗結果顯示其具備顯著的適應能力：

在少樣本學習任務中，使用 Llama-3.2-1B-Instruct 模型，SEAL 的適應成功率達到 72.5%，遠高於基礎自我編輯模型的 20%。

在知識整合任務中，研究人員使用 Qwen2.5-7B 模型整合 SQuAD 文章的新資訊。結果顯示，SEAL 不僅穩定超越基準方法，且在經過兩次強化學習迭代後，其準確度往往能超越使用 GPT-4.1 生成數據的設置。

技術限制與未來展望

儘管 SEAL 在實驗中展現出強大的潛力，研究人員亦在論文中坦言該架構仍面臨挑戰，包括災難性遺忘（Catastrophic Forgetting）、運算資源開銷，以及與情境相關的評估問題。目前該研究已在 GitHub 上開源，為持續演化智慧系統的研究提供了重要參考。

AI 進化論新篇章：MIT 發表 SEAL 架構，讓大型語言模型學會「自我改寫」

編輯核心觀點

AI 自我演化：從概念走向實踐

SEAL 如何運作：雙層迴圈機制

實驗成果：超越傳統基準

技術限制與未來展望

資料來源

相關文章

AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊

Perplexity 大升級！Deep Research 導入「程式碼驅動搜尋」，串聯 20 款 AI 模型自動產出報表

Google NotebookLM 學習功能再進化：傳將新增「教科書」作為 AI 知識庫來源