告別 AI 影片「空間記憶喪失」：微軟 Mirage 模型如何用潛在空間記憶，讓場景一致性大幅提升？

跳過像素渲染的「雙重瓶頸」

現有的影片世界模型（Video World Models）雖然能根據初始畫面與鏡頭路徑生成影像，但普遍面臨一個核心挑戰：缺乏空間記憶。當鏡頭轉向後再回到原處時，模型往往會忘記先前的場景結構，導致家具位置偏移或紋理改變。過去如 Voyager、WonderWorld 與 Spatia 等系統，試圖透過 3D 點雲（Point Cloud）來記錄場景，但這需要將數據不斷在像素空間與模型內部特徵空間之間轉換，不僅耗費大量運算資源，且每次轉換都會造成資訊流失。

微軟研究團隊開發的 Mirage 採取了截然不同的路徑。它不再儲存可見的顏色點，而是直接將擴散模型（Diffusion Model）內部的影像特徵儲存於 3D 空間中。這種「潛在空間記憶（Latent Spatial Memory）」讓模型在生成新視角時，能直接投影至目標鏡頭，省去了渲染點雲與重新編碼的步驟。

運算效率與穩定性的突破

Mirage 的運作方式是將影片分段處理，並從初始影像建立潛在記憶快取。在後續的生成過程中，系統會從記憶體提取相關數據，生成新影格後再將內容寫回快取，記憶體容量會隨過程動態增長。為了確保長期記憶的穩定性，系統內建了一套過濾機制，會在寫入前剔除移動物件與天空，僅保留穩定的幾何結構。研究團隊以阿里巴巴開源的 Wan2.2 模型為基礎，透過小型外掛模組進行訓練，並利用 LoRA 適配器進行微調。

Mirage 在 WorldScore 基準測試中超越了以顏色點為記憶基礎的 Spatia，並在 RealEstate10K 資料集的閉環測試中，於三項指標中的兩項取得領先。

在效率方面，Mirage 展現了顯著優勢。傳統基於顏色的記憶系統會隨著影片長度增加，導致運算成本與記憶體需求飆升；相比之下，Mirage 的每影格運算成本在第一段之後幾乎保持平穩。根據研究團隊的數據，其生成速度最高可達傳統系統的 10.57 倍，記憶體佔用則減少了高達 55 倍。

動態場景的侷限與未來挑戰

儘管 Mirage 在保持場景空間結構一致性上表現亮眼，但研究團隊也坦言其當前侷限。由於過濾機制會刻意剔除移動物件以確保幾何結構的準確性，導致在複雜的動態場景中，其空間記憶的優勢不如靜態室內場景明顯。目前，如何有效儲存動態內容已成為該團隊下一個亟待解決的技術難題。

隨著 Google DeepMind 的 Genie 3 等模型持續推動互動式環境的即時生成，影片世界模型已成為 AI 研究領域最熱門的戰場之一。Mirage 的出現，為解決長影片生成中的空間一致性問題提供了一種更輕量、高效的技術路徑。

告別 AI 影片「空間記憶喪失」：微軟 Mirage 模型如何用潛在空間記憶，讓場景一致性大幅提升？

編輯核心觀點

跳過像素渲染的「雙重瓶頸」

運算效率與穩定性的突破

動態場景的侷限與未來挑戰

資料來源

相關文章

印度 AI 策略轉向：Avataar 推出的 Varya 模型，如何用 1/27 的成本搶攻在地市場？

告別 AI 代理多工混亂！Databricks 開源 Omnigent，打造一站式「元協調器」讓開發者效率翻倍

AI 數數總是出錯？清華大學開發「Count Anything」模型，跨領域計數精準度翻倍

Google 搜尋 25 年最大變革：搜尋框化身 AI 對話入口，正式告別關鍵字時代