AI 邁向自我進化：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新

AI 自我進化：從理論走向實作

人工智慧的「自我進化」一直是近期研究圈的熱門議題，OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來機器人能操作供應鏈、自行建造晶片廠與資料中心的願景。在此背景下，麻省理工學院（MIT）發表了一篇名為《Self-Adapting Language Models》的論文，正式推出 SEAL (Self-Adapting LLMs) 框架，為 AI 邁向自我進化提供了具體的技術路徑。

SEAL 的運作機制：雙迴圈優化

SEAL 的核心概念在於允許語言模型在接觸新數據時，透過生成「自我編輯（Self-edits, SE）」來優化自身參數。這套系統本質上是一種元學習（Meta-learning），其運作包含兩個嵌套的迴圈：

外層迴圈（強化學習）： 模型透過強化學習優化自我編輯的生成策略，獎勵機制取決於更新後的模型在目標任務上的表現。
內層迴圈（參數更新）： 利用生成的自我編輯，透過梯度下降（Gradient Descent）更新模型權重。

研究團隊指出，傳統的線上策略方法（如 GRPO 或 PPO）在訓練時容易不穩定，因此最終選擇了源自 DeepMind 論文的 ReST^EM 方法。這是一種基於過濾的行為複製流程，將過程視為期望最大化（EM）處理：E 步驟從當前策略採樣候選輸出，M 步驟則透過監督式微調，僅強化那些能產生正向獎勵的樣本。

實驗成果：超越傳統基準

MIT 團隊在「知識整合」與「少樣本學習」兩個領域驗證了 SEAL 的效能：

在少樣本學習任務中，使用 Llama-3.2-1B-Instruct 模型，SEAL 將適應成功率提升至 72.5%，遠高於基礎自我編輯模型的 20% 與未適應模型的 0%。

在知識整合任務中，研究人員使用 Qwen2.5-7B 模型處理 SQuAD 文章中的新事實。結果顯示，SEAL 不僅能穩定超越基準方法，且在僅經過兩次迭代後，其準確度便經常超越使用 GPT-4.1 生成數據的設定。

現階段的挑戰

儘管 SEAL 展示了顯著的進步，研究人員也在論文中坦承該框架仍面臨多項限制，包括災難性遺忘（Catastrophic Forgetting）、運算資源開銷，以及與上下文相關的評估問題。目前 SEAL 的實作雖然由單一模型執行生成與學習，但研究團隊指出，未來亦可將這些角色拆分為「教師-學生」架構，以進一步優化訓練效率。

AI 邁向自我進化：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新

編輯核心觀點

AI 自我進化：從理論走向實作

SEAL 的運作機制：雙迴圈優化

實驗成果：超越傳統基準

現階段的挑戰

資料來源

相關文章

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

Liquid AI 推輕量級檢索模型：350M 參數挑戰跨語言搜尋，筆電也能跑高效 RAG