告別 AI 影片「空間記憶喪失」:微軟 Mirage 模型如何用潛在空間記憶,讓場景一致性大幅提升?
編輯核心觀點
- ✦微軟與多所大學合作開發 Mirage,透過在潛在空間儲存特徵而非像素,解決了影片生成模型在長鏡頭移動時容易遺忘場景細節的問題。
- ✦Mirage 捨棄了傳統將 3D 點雲轉回像素的繁瑣步驟,不僅生成速度最高提升 10.57 倍,記憶體需求更降低達 55 倍。
- ✦該模型目前針對靜態場景表現優異,但因過濾機制會剔除移動物件,如何處理動態內容將是團隊下一步的研發重點。

跳過像素渲染的「雙重瓶頸」
現有的影片世界模型(Video World Models)雖然能根據初始畫面與鏡頭路徑生成影像,但普遍面臨一個核心挑戰:缺乏空間記憶。當鏡頭轉向後再回到原處時,模型往往會忘記先前的場景結構,導致家具位置偏移或紋理改變。過去如 Voyager、WonderWorld 與 Spatia 等系統,試圖透過 3D 點雲(Point Cloud)來記錄場景,但這需要將數據不斷在像素空間與模型內部特徵空間之間轉換,不僅耗費大量運算資源,且每次轉換都會造成資訊流失。
微軟研究團隊開發的 Mirage 採取了截然不同的路徑。它不再儲存可見的顏色點,而是直接將擴散模型(Diffusion Model)內部的影像特徵儲存於 3D 空間中。這種「潛在空間記憶(Latent Spatial Memory)」讓模型在生成新視角時,能直接投影至目標鏡頭,省去了渲染點雲與重新編碼的步驟。
運算效率與穩定性的突破
Mirage 的運作方式是將影片分段處理,並從初始影像建立潛在記憶快取。在後續的生成過程中,系統會從記憶體提取相關數據,生成新影格後再將內容寫回快取,記憶體容量會隨過程動態增長。為了確保長期記憶的穩定性,系統內建了一套過濾機制,會在寫入前剔除移動物件與天空,僅保留穩定的幾何結構。研究團隊以阿里巴巴開源的 Wan2.2 模型為基礎,透過小型外掛模組進行訓練,並利用 LoRA 適配器進行微調。
Mirage 在 WorldScore 基準測試中超越了以顏色點為記憶基礎的 Spatia,並在 RealEstate10K 資料集的閉環測試中,於三項指標中的兩項取得領先。
在效率方面,Mirage 展現了顯著優勢。傳統基於顏色的記憶系統會隨著影片長度增加,導致運算成本與記憶體需求飆升;相比之下,Mirage 的每影格運算成本在第一段之後幾乎保持平穩。根據研究團隊的數據,其生成速度最高可達傳統系統的 10.57 倍,記憶體佔用則減少了高達 55 倍。
動態場景的侷限與未來挑戰
儘管 Mirage 在保持場景空間結構一致性上表現亮眼,但研究團隊也坦言其當前侷限。由於過濾機制會刻意剔除移動物件以確保幾何結構的準確性,導致在複雜的動態場景中,其空間記憶的優勢不如靜態室內場景明顯。目前,如何有效儲存動態內容已成為該團隊下一個亟待解決的技術難題。
隨著 Google DeepMind 的 Genie 3 等模型持續推動互動式環境的即時生成,影片世界模型已成為 AI 研究領域最熱門的戰場之一。Mirage 的出現,為解決長影片生成中的空間一致性問題提供了一種更輕量、高效的技術路徑。



