AI 邁向自我進化：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新

AI 自我進化：從理論走向實作

人工智慧的自我進化（Self-improvement）近期成為學術界熱門議題，OpenAI 執行長 Sam Altman 甚至在部落格文章《The Gentle Singularity》中描繪了未來機器人能操作供應鏈、自行建造晶片廠與資料中心的願景。在此背景下，麻省理工學院（MIT）的研究團隊發表了一篇名為《Self-Adapting Language Models》的論文，正式提出 SEAL（Self-Adapting LLMs） 框架，為 AI 自我進化提供了具體的技術實證。

SEAL 的運作機制：雙迴圈學習架構

SEAL 的核心概念是讓語言模型在接觸新數據時，能透過生成「自我編輯（Self-edits, SE）」來優化自身參數。該框架將訓練過程設計為兩個巢狀迴圈：

外部強化學習（RL）迴圈： 優化自我編輯的生成過程，模型根據下游任務的表現獲得獎勵。
內部更新迴圈： 利用生成的自我編輯，透過梯度下降（Gradient Descent）更新模型權重。

研究人員指出，傳統的線上策略方法（如 GRPO 或 PPO）在訓練過程中容易不穩定，因此最終採用了源自 DeepMind 論文、基於過濾的行為複製方法 ReST^EM。這種方法類似於期望最大化（EM）過程，透過篩選出能帶來正向獎勵的樣本進行監督式微調。

實驗成果：超越傳統基準

研究團隊在「知識整合」與「少樣本學習（Few-shot learning）」兩個領域測試了 SEAL 的效能：

在少樣本學習任務中，使用 Llama-3.2-1B-Instruct 模型，SEAL 的適應成功率達到 72.5%，顯著高於使用基礎自我編輯（無強化學習）的 20% 以及無適應能力的 0%。

在知識整合任務中，研究人員使用 Qwen2.5-7B 模型整合 SQuAD 文章中的新事實。實驗顯示，SEAL 不僅穩定優於基準方法，且在經過兩次外部強化學習迭代後，其準確度往往能超越使用 GPT-4.1 生成數據的設定。

技術挑戰與未來展望

儘管 SEAL 展示了顯著的進步，但研究團隊也坦言該框架目前仍面臨挑戰，包括災難性遺忘（Catastrophic forgetting）、計算開銷過大，以及依賴上下文的評估限制。此外，雖然目前的實作是由單一模型執行生成與學習，但研究人員指出，未來可透過「教師-學生」架構將這兩個角色分離，進一步提升系統的靈活性與效率。

AI 邁向自我進化：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新

編輯核心觀點

AI 自我進化：從理論走向實作

SEAL 的運作機制：雙迴圈學習架構

實驗成果：超越傳統基準

技術挑戰與未來展望

資料來源

相關文章

AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

貝佐斯的新賭注：Prometheus 募資 120 億美元，目標打造「人工通用工程師」

法國 AI 獨角獸 Mistral AI 擬募資 30 億歐元，估值上看 200 億歐元挑戰 OpenAI

機器人導航新突破：字節跳動發表 Astra 雙模型架構，解決室內定位與路徑規劃難題