返回首頁

AI 進化論新篇章:MIT 發表 SEAL 架構,讓語言模型學會「自我編輯」與參數更新

編輯核心觀點

  • 麻省理工學院研究團隊提出 SEAL 架構,透過強化學習讓大型語言模型能生成合成數據並自我優化參數。
  • 該研究在少樣本學習與知識整合任務中表現優異,成功率顯著高於傳統自編輯方法。
  • 此進展呼應了近期 AI 自我演化趨勢,並為未來實現具備自我改進能力的智慧系統提供具體技術路徑。
AI 進化論新篇章:MIT 發表 SEAL 架構,讓語言模型學會「自我編輯」與參數更新

AI 自我演化的技術突破

人工智慧的「自我改進」能力近期成為研究熱點。麻省理工學院(MIT)最新發表的論文《Self-Adapting Language Models》提出了一種名為 SEAL(Self-Adapting LLMs) 的創新架構,允許大型語言模型(LLM)在遇到新數據時,透過自我編輯生成合成數據,並據此更新模型權重。這項研究被視為邁向真正自我演化 AI 的重要里程碑。

SEAL 的運作機制:雙層迴圈架構

SEAL 的核心概念在於讓模型直接在上下文(Context)中生成「自我編輯(Self-edits, SE)」,並透過強化學習(Reinforcement Learning)優化這些編輯的生成過程。該架構包含兩個巢狀迴圈:

  • 外層迴圈(RL Loop): 優化自我編輯的生成策略,獎勵機制取決於更新後模型在特定任務上的表現。
  • 內層迴圈(Update Loop): 利用生成的自我編輯,透過梯度下降法更新模型參數。

研究團隊指出,傳統的線上策略方法(如 GRPO 或 PPO)在訓練過程中容易不穩定,因此最終採用了源自 DeepMind 論文、基於篩選的行為複製方法 ReST^EM。這可以視為一種期望最大化(EM)過程,透過篩選出能帶來正向獎勵的樣本進行監督式微調。

實驗成果與應用範疇

MIT 團隊將 SEAL 應用於「知識整合」與「少樣本學習」兩個領域,實驗結果顯示其顯著優於基準模型:

在少樣本學習任務中,使用 Llama-3.2-1B-Instruct 模型,SEAL 將適應成功率提升至 72.5%,遠高於基礎自編輯方法的 20%。

在知識整合任務中,使用 Qwen2.5-7B 模型整合 SQuAD 文章資訊時,SEAL 不僅能穩定超越基準方法,且在經過兩次迭代後,其準確度表現往往優於使用 GPT-4.1 生成數據的設定。

AI 自我演化的產業背景

SEAL 的發表正值學界與產業界對 AI 自我演化高度關注之際。近期相關研究包括 Sakana AI 與英屬哥倫比亞大學的「Darwin-Gödel Machine (DGM)」、卡內基美隆大學(CMU)的「Self-Rewarding Training (SRT)」,以及上海交通大學的「MM-UPT」與香港中文大學合作 vivo 推出的「UI-Genie」。

OpenAI 執行長 Sam Altman 近期亦在部落格文章《The Gentle Singularity》中描繪了自我改進 AI 與機器人的願景,指出未來的機器人將能操作整個供應鏈,進而製造更多機器人、晶片設施與資料中心。儘管關於 OpenAI 內部是否已實現遞迴自我改進 AI 的傳聞仍有爭議,但 MIT 的 SEAL 研究已為 AI 自我演化的可行性提供了具體的技術證據。

研究團隊同時坦承,SEAL 目前仍面臨災難性遺忘、計算開銷以及上下文依賴評估等挑戰,詳細討論可見於原始論文。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章