微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

你让 AI 生成一段视频，镜头从客厅扫到走廊再转回来。结果，客厅的沙发变了颜色，墙上的画歪了 15 度，窗外的树从左边跑到了右边。这不是 AI 在发挥创意，只是它的记忆太差。

视频世界模型（Video World Model）是当下 AI 视频生成最前沿的方向之一。和普通文生视频不同，世界模型的目标是让场景可导航、可持久：你给定一个起始画面和一条相机运动轨迹，模型要沿着这条路生成连贯的视频，并且每次镜头转回来，之前看到的东西还得在原来的位置。

这件事比听起来难得多。

像素点云的“渲染再编码”死循环

目前主流的空间一致性方案靠的是 RGB 点云。模型每生成一帧，就把画面解码成像素，用深度估计把像素抬到三维空间里变成带颜色的点。等镜头转回来需要回忆场景时，再把这些点渲染成一张图，重新编码回模型内部的隐空间表示，喂给扩散模型做条件引导。

问题出在这个来回折腾的过程。第一，慢。每次查询都要跑一遍 VAE 解码、点云渲染、VAE 编码，计算量和帧数成正比，越长越贵。第二，丢信息。扩散模型的隐空间 token 本身携带 48 通道的丰富特征，一旦你把它压成 RGB 像素再读回来，大量结构信息已经不可逆地损失了。你让一个画家先看高清照片，闭眼画一遍，再让他看着自己的画重新画一遍，每一步都在走样。

微软研究院联合浙江大学、阿德莱德大学和莫纳什大学发布的 Mirage（论文 arXiv:2606.09828），直接砍掉了这个来回过程。它的核心思路一句话能说清楚：把场景记忆存在扩散模型的隐空间里，从头到尾不碰像素。

隐空间里的三维记忆

Mirage 的做法分三步。第一步，输入帧通过 VAE 编码成隐空间张量，一个单目深度估计器同时给出每个隐空间 token 的深度值。第二步，用这些深度值做反向投影，把每个 token 摆到三维世界坐标系里。注意，这里存的是隐空间 token，不是 RGB 颜色点。第三步，生成新视角时，直接把三维隐空间缓存投影到目标相机视角，输出一个目标视角的隐空间张量，扩散模型拿来就能用，不需要任何像素中间商。

这个设计之所以能省那么多资源，和底层模型的选择有关。Mirage 基于阿里巴巴开源的 Wan2.2-TI2V-5B 视频扩散模型，它的 VAE 空间步幅是 16，时间步幅是 4，48 个隐空间通道。每个隐空间 token 已经压缩了一整个 16x16 的像素块。把记忆存在这个分辨率而不是全像素分辨率，显存自然省了一个数量级以上。

视频是分段生成的。每一段的流程是：从隐空间缓存读取当前视角需要的记忆，用这些记忆引导扩散去噪生成新帧，然后把新帧里静态场景的部分写回缓存。一个动态区域过滤器会在写入前剔除移动物体和天空，只有稳定的背景几何才会进入长期记忆。这意味着走过的人、飘动的树叶不会被永久烘焙到场景地图里。

架构集成方面，研究团队在 Wan2.2 上加了一个小型附加模块来学习如何使用新的隐空间记忆，然后用 LoRA 适配器做微调。这意味着不需要从头训练一个大模型，任何有 Wan2.2 的研究团队都可以复现这条路。

数字背后

WorldScore 基准测试上，Mirage 拿到 70.36 的平均分，超过了此前最好的 RGB 点云方案 Spatia（69.73）。其中三维一致性 92.21，光度一致性 93.95，这两个指标直接衡量“回到之前看过的位置时几何是否保持不动”，正是空间记忆应该发力的地方。

但真正的亮点不是分数，是效率。和 RGB 点云方案相比，Mirage 端到端生成速度最快达到 10.57 倍，GPU 显存占用降低 55 倍。更关键的是，像素空间的内存开销随帧数线性增长，而 Mirage 每帧成本在第一个分段后几乎不再增加。这意味着生成 100 帧和生成 1000 帧的边际成本几乎一样。

这对机器人训练场景意义重大。视频世界模型正越来越多地被用作机器人学习的仿真环境，智能体需要在一个场景里探索、离开、再返回。一次训练可能跑几千帧，正是像素空间内存系统最吃不消的区间。Mirage 的平坦成本曲线让更长的仿真运行变得可行，以前付不起显存账的实验室现在有了新选项。

一个诚实的局限

Mirage 的动态区域过滤器既是优点也是软肋。移动物体被排除在长期记忆之外，保证了场景地图的干净，但也意味着一个走出画面再走回来的人不保证能保持一致。静态场景得分 73.60，动态场景得分 67.11，这个差距直接反映了设计的取舍。

论文作者明确指出，存储动态内容是下一个要解决的问题。对于以静态室内场景为主的机器人导航训练，这个局限影响不大。但如果你想做的是游戏级别的交互式世界，角色和物体都需要跨镜头保持状态，目前还不够。

视频世界模型赛道正在加速

Mirage 不是孤立事件。谷歌 DeepMind 的 Genie 3 已经能实时生成可交互的三维环境并保持几分钟一致性，Waymo 用它来模拟自动驾驶场景。Google I/O 上发布的 Gemini Omni 也被定位为世界模型，是 Veo 的潜在继任者。微软这次用隐空间记忆切入，走的路线不同但解决的痛点很明确：不是让模型变聪明，而是让记忆不再昂贵。

代码和模型已开源（github.com/microsoft/LatentSpatialMemory，MIT 许可证），基于 Wan2.2 微调，有 LoRA 适配器，复现门槛不高。对做 AI 视频和具身智能的团队来说，这是一个值得现在就跑起来的方案。

引用来源

微软研究院 Mirage 项目页：https://aka.ms/latent-spatial-memory
论文 arXiv:2606.09828：https://arxiv.org/abs/2606.09828
GitHub 开源仓库 microsoft/LatentSpatialMemory：https://github.com/microsoft/LatentSpatialMemory
The Decoder 报道：https://the-decoder.com/microsoft-researchs-mirage-gives-video-generation-a-persistent-spatial-memory-that-doesnt-forget-whats-around-the-corner/
TechTimes 深度分析：https://www.techtimes.com/articles/318412/20260615/microsoft-mirage-fixes-ai-video-world-model-drift-55x-less-gpu-memory.htm
ResearchPapers 解读：https://researchpapers.dev/en/papers/latent-spatial-memory-world-model/
HuggingFace 论文页：https://huggingface.co/papers/2606.09828

像素点云的“渲染再编码”死循环

隐空间里的三维记忆

数字背后

一个诚实的局限

视频世界模型赛道正在加速

引用来源

相关文章

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Kimi Work 上线：300 个子智能体在你的电脑上同时干活，个人 Agent 之战正式开打

可灵 3.0 原生 4K：AI 视频终于跨过了影视工业的最后一道门槛

评论区