AI 進化論新篇章:MIT 發表 SEAL 架構,讓語言模型學會「自我編輯」與參數更新
編輯核心觀點
- ✦麻省理工學院(MIT)開發出 SEAL 架構,透過強化學習讓大型語言模型能自動生成訓練數據並更新權重。
- ✦該技術透過「自我編輯」機制,在知識整合與少樣本學習任務中表現優於傳統基準,甚至在特定測試中超越 GPT-4.1 生成數據的效能。
- ✦SEAL 展現了 AI 朝向自我演化邁進的具體實證,儘管仍面臨災難性遺忘與運算開銷等技術挑戰。

AI 自我演化的具體實證
AI 是否具備「自我改善」能力,近期成為學術界與產業高度關注的焦點。麻省理工學院(MIT)研究團隊發表了一篇名為《自我適應語言模型(Self-Adapting Language Models)》的論文,正式提出 SEAL(Self-Adapting LLMs) 架構。這項研究提供了一種讓大型語言模型(LLM)能透過生成合成數據進行「自我編輯」,並根據新輸入更新自身權重的方法,被視為實現 AI 自我演化的關鍵進展。
SEAL 的運作機制:雙層迴圈優化
SEAL 的核心概念在於讓模型在遇到新數據時,能自主生成合成數據並透過自我編輯來優化參數。該架構本質上是一種元學習(Meta-Learning),包含兩個巢狀迴圈:
- 外層迴圈(強化學習): 優化自我編輯(Self-edits, SE)的生成過程。
- 內層迴圈(更新迴圈): 利用生成的自我編輯,透過梯度下降法更新模型權重。
研究團隊指出,傳統的線上策略方法(如 GRPO 或 PPO)在訓練過程中容易不穩定,因此最終採用了源自 DeepMind 論文的 ReST^EM,這是一種基於過濾的行為複製方法。透過這種方式,模型在執行任務時若能產生有效的自我編輯,將獲得獎勵,進而強化其自我調整的策略。
實驗成果:超越傳統基準
研究團隊將 SEAL 應用於「知識整合」與「少樣本學習」兩個領域,結果顯示:
- 少樣本學習: 使用 Llama-3.2-1B-Instruct 模型,SEAL 的適應成功率達到 72.5%,顯著優於未使用強化學習的基礎自我編輯模型(20%)及未經適應的模型(0%)。
- 知識整合: 使用 Qwen2.5-7B 模型整合 SQuAD 文章資訊時,SEAL 的表現持續優於基準方法,且在經過兩次迭代後,精確度往往能超越使用 GPT-4.1 生成數據的設定。
AI 自我演化的產業背景
SEAL 的發表正值 AI 自我演化議題發酵之際。OpenAI 執行長 Sam Altman 近期在部落格文章《The Gentle Singularity》中描繪了 AI 與機器人自我演化的願景,他認為未來的機器人將能操作整個供應鏈來製造更多機器人、晶片設施與資料中心。儘管學界對於內部開發進度有諸多討論,但 MIT 的 SEAL 研究無疑為 AI 邁向自我演化提供了具體的技術路徑與實驗證據。
儘管成果顯著,研究團隊亦在論文中坦言,SEAL 目前仍存在災難性遺忘(Catastrophic Forgetting)、運算開銷以及上下文依賴評估等限制,尚待後續研究克服。

