微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

发布于2026年6月21日 08:39
编辑零重力瓦力
评论0
阅读1

你让 AI 生成一段视频,镜头从客厅扫到走廊再转回来。结果,客厅的沙发变了颜色,墙上的画歪了 15 度,窗外的树从左边跑到了右边。这不是 AI 在发挥创意,只是它的记忆太差。

视频世界模型(Video World Model)是当下 AI 视频生成最前沿的方向之一。和普通文生视频不同,世界模型的目标是让场景可导航、可持久:你给定一个起始画面和一条相机运动轨迹,模型要沿着这条路生成连贯的视频,并且每次镜头转回来,之前看到的东西还得在原来的位置。

这件事比听起来难得多。

像素点云的“渲染再编码”死循环

目前主流的空间一致性方案靠的是 RGB 点云。模型每生成一帧,就把画面解码成像素,用深度估计把像素抬到三维空间里变成带颜色的点。等镜头转回来需要回忆场景时,再把这些点渲染成一张图,重新编码回模型内部的隐空间表示,喂给扩散模型做条件引导。

问题出在这个来回折腾的过程。第一,慢。每次查询都要跑一遍 VAE 解码、点云渲染、VAE 编码,计算量和帧数成正比,越长越贵。第二,丢信息。扩散模型的隐空间 token 本身携带 48 通道的丰富特征,一旦你把它压成 RGB 像素再读回来,大量结构信息已经不可逆地损失了。你让一个画家先看高清照片,闭眼画一遍,再让他看着自己的画重新画一遍,每一步都在走样。

微软研究院联合浙江大学、阿德莱德大学和莫纳什大学发布的 Mirage(论文 arXiv:2606.09828),直接砍掉了这个来回过程。它的核心思路一句话能说清楚:把场景记忆存在扩散模型的隐空间里,从头到尾不碰像素。

隐空间里的三维记忆

Mirage 的做法分三步。第一步,输入帧通过 VAE 编码成隐空间张量,一个单目深度估计器同时给出每个隐空间 token 的深度值。第二步,用这些深度值做反向投影,把每个 token 摆到三维世界坐标系里。注意,这里存的是隐空间 token,不是 RGB 颜色点。第三步,生成新视角时,直接把三维隐空间缓存投影到目标相机视角,输出一个目标视角的隐空间张量,扩散模型拿来就能用,不需要任何像素中间商。

这个设计之所以能省那么多资源,和底层模型的选择有关。Mirage 基于阿里巴巴开源的 Wan2.2-TI2V-5B 视频扩散模型,它的 VAE 空间步幅是 16,时间步幅是 4,48 个隐空间通道。每个隐空间 token 已经压缩了一整个 16x16 的像素块。把记忆存在这个分辨率而不是全像素分辨率,显存自然省了一个数量级以上。

视频是分段生成的。每一段的流程是:从隐空间缓存读取当前视角需要的记忆,用这些记忆引导扩散去噪生成新帧,然后把新帧里静态场景的部分写回缓存。一个动态区域过滤器会在写入前剔除移动物体和天空,只有稳定的背景几何才会进入长期记忆。这意味着走过的人、飘动的树叶不会被永久烘焙到场景地图里。

架构集成方面,研究团队在 Wan2.2 上加了一个小型附加模块来学习如何使用新的隐空间记忆,然后用 LoRA 适配器做微调。这意味着不需要从头训练一个大模型,任何有 Wan2.2 的研究团队都可以复现这条路。

数字背后

WorldScore 基准测试上,Mirage 拿到 70.36 的平均分,超过了此前最好的 RGB 点云方案 Spatia(69.73)。其中三维一致性 92.21,光度一致性 93.95,这两个指标直接衡量“回到之前看过的位置时几何是否保持不动”,正是空间记忆应该发力的地方。

但真正的亮点不是分数,是效率。和 RGB 点云方案相比,Mirage 端到端生成速度最快达到 10.57 倍,GPU 显存占用降低 55 倍。更关键的是,像素空间的内存开销随帧数线性增长,而 Mirage 每帧成本在第一个分段后几乎不再增加。这意味着生成 100 帧和生成 1000 帧的边际成本几乎一样。

这对机器人训练场景意义重大。视频世界模型正越来越多地被用作机器人学习的仿真环境,智能体需要在一个场景里探索、离开、再返回。一次训练可能跑几千帧,正是像素空间内存系统最吃不消的区间。Mirage 的平坦成本曲线让更长的仿真运行变得可行,以前付不起显存账的实验室现在有了新选项。

一个诚实的局限

Mirage 的动态区域过滤器既是优点也是软肋。移动物体被排除在长期记忆之外,保证了场景地图的干净,但也意味着一个走出画面再走回来的人不保证能保持一致。静态场景得分 73.60,动态场景得分 67.11,这个差距直接反映了设计的取舍。

论文作者明确指出,存储动态内容是下一个要解决的问题。对于以静态室内场景为主的机器人导航训练,这个局限影响不大。但如果你想做的是游戏级别的交互式世界,角色和物体都需要跨镜头保持状态,目前还不够。

视频世界模型赛道正在加速

Mirage 不是孤立事件。谷歌 DeepMind 的 Genie 3 已经能实时生成可交互的三维环境并保持几分钟一致性,Waymo 用它来模拟自动驾驶场景。Google I/O 上发布的 Gemini Omni 也被定位为世界模型,是 Veo 的潜在继任者。微软这次用隐空间记忆切入,走的路线不同但解决的痛点很明确:不是让模型变聪明,而是让记忆不再昂贵。

代码和模型已开源(github.com/microsoft/LatentSpatialMemory,MIT 许可证),基于 Wan2.2 微调,有 LoRA 适配器,复现门槛不高。对做 AI 视频和具身智能的团队来说,这是一个值得现在就跑起来的方案。

引用来源

  1. 微软研究院 Mirage 项目页:https://aka.ms/latent-spatial-memory
  2. 论文 arXiv:2606.09828:https://arxiv.org/abs/2606.09828
  3. GitHub 开源仓库 microsoft/LatentSpatialMemory:https://github.com/microsoft/LatentSpatialMemory
  4. The Decoder 报道:https://the-decoder.com/microsoft-researchs-mirage-gives-video-generation-a-persistent-spatial-memory-that-doesnt-forget-whats-around-the-corner/
  5. TechTimes 深度分析:https://www.techtimes.com/articles/318412/20260615/microsoft-mirage-fixes-ai-video-world-model-drift-55x-less-gpu-memory.htm
  6. ResearchPapers 解读:https://researchpapers.dev/en/papers/latent-spatial-memory-world-model/
  7. HuggingFace 论文页:https://huggingface.co/papers/2606.09828

相关文章

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
可灵 3.0 原生 4K:AI 视频终于跨过了影视工业的最后一道门槛
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

可灵 3.0 原生 4K:AI 视频终于跨过了影视工业的最后一道门槛

可灵 AI 发布 Video 3.0 原生 4K 模式,支持 3840×2160 分辨率、60fps 及 16bit HDR,首次在多维度达到广播级交付标准。该模式区别于后期放大,细节真实度显著提升,并新增多镜头分镜与原生音频生成功能,大幅提高制作效率。尽管 4K 生成成本较高,但其在 ELO 测试中排名第一,标志着 AI 视频从娱乐工具迈向影视工业级生产设施,解决了商业交付难题。

#可灵#视频生成
阅读全文
互动讨论

评论区

围绕《微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。