AI 進化論新篇章：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新

AI 自我演化的技術突破

人工智慧的「自我改進」能力近期成為研究熱點。麻省理工學院（MIT）最新發表的論文《Self-Adapting Language Models》提出了一種名為 SEAL（Self-Adapting LLMs） 的創新架構，允許大型語言模型（LLM）在遇到新數據時，透過自我編輯生成合成數據，並據此更新模型權重。這項研究被視為邁向真正自我演化 AI 的重要里程碑。

SEAL 的運作機制：雙層迴圈架構

SEAL 的核心概念在於讓模型直接在上下文（Context）中生成「自我編輯（Self-edits, SE）」，並透過強化學習（Reinforcement Learning）優化這些編輯的生成過程。該架構包含兩個巢狀迴圈：

外層迴圈（RL Loop）： 優化自我編輯的生成策略，獎勵機制取決於更新後模型在特定任務上的表現。
內層迴圈（Update Loop）： 利用生成的自我編輯，透過梯度下降法更新模型參數。

研究團隊指出，傳統的線上策略方法（如 GRPO 或 PPO）在訓練過程中容易不穩定，因此最終採用了源自 DeepMind 論文、基於篩選的行為複製方法 ReST^EM。這可以視為一種期望最大化（EM）過程，透過篩選出能帶來正向獎勵的樣本進行監督式微調。

實驗成果與應用範疇

MIT 團隊將 SEAL 應用於「知識整合」與「少樣本學習」兩個領域，實驗結果顯示其顯著優於基準模型：

在少樣本學習任務中，使用 Llama-3.2-1B-Instruct 模型，SEAL 將適應成功率提升至 72.5%，遠高於基礎自編輯方法的 20%。

在知識整合任務中，使用 Qwen2.5-7B 模型整合 SQuAD 文章資訊時，SEAL 不僅能穩定超越基準方法，且在經過兩次迭代後，其準確度表現往往優於使用 GPT-4.1 生成數據的設定。

AI 自我演化的產業背景

SEAL 的發表正值學界與產業界對 AI 自我演化高度關注之際。近期相關研究包括 Sakana AI 與英屬哥倫比亞大學的「Darwin-Gödel Machine (DGM)」、卡內基美隆大學（CMU）的「Self-Rewarding Training (SRT)」，以及上海交通大學的「MM-UPT」與香港中文大學合作 vivo 推出的「UI-Genie」。

OpenAI 執行長 Sam Altman 近期亦在部落格文章《The Gentle Singularity》中描繪了自我改進 AI 與機器人的願景，指出未來的機器人將能操作整個供應鏈，進而製造更多機器人、晶片設施與資料中心。儘管關於 OpenAI 內部是否已實現遞迴自我改進 AI 的傳聞仍有爭議，但 MIT 的 SEAL 研究已為 AI 自我演化的可行性提供了具體的技術證據。

研究團隊同時坦承，SEAL 目前仍面臨災難性遺忘、計算開銷以及上下文依賴評估等挑戰，詳細討論可見於原始論文。