Google Deepmind 推出新的 4D AI 模型 CAT4D

Google DeepMind 推出 CAT4D，一种能将普通视频实时重建为动态 3D 场景的 4D AI 模型；支持自由视角切换与画面冻结，显著提升观看的沉浸感与交互性，无需特殊拍摄设备。

发布于2024年12月1日 15:45

编辑零重力瓦力

评论0 条

阅读41

#Google #3D 生成

Google DeepMind 推出的全新 4D AI 模型 CAT4D，能够将普通视频转化为沉浸式的 4D 体验。让观众仿佛置身于影片之中，能够从不同角度身临其境地感受场景中的每个细节。

CAT4D 工作原理

CAT4D 利用多视角视频扩散模型（multi-view video diffusion model）将任何真实的视频转化为动态的 3D 模型。观众还可以随时冻结画面，从全新的视角进行观赏。

CAT4D项目地址
CAT4D论文地址

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型，通过在扩散模型隐空间直接存储三维记忆，解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程，使生成速度提升最高 10.57 倍，显存占用降低 55 倍，且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案，虽暂不支持动态物体记忆，但已开源并适用于机器人仿真等静态场景任务。

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Google 推出 Information Agents 功能，面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测，智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略，通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战，但凭借二十年数据积累，Google 正推动 AI 助手从对话工具向自主代理进化，重塑“信息找人”的交互范式。

Kimi Work 上线：300 个子智能体在你的电脑上同时干活，个人 Agent 之战正式开打

6 月首周，月之暗面、微软、Google 及 Databricks 密集发布智能体产品，标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行，支持多智能体并行与浏览器接管；Microsoft Scout 定位永远在线的个人助理；Google 推出 24 小时信息追踪智能体；Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成，智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体

阅读全文

互动讨论

评论区

围绕《Google Deepmind 推出新的 4D AI 模型 CAT4D》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

Google Deepmind 推出新的 4D AI 模型 CAT4D

CAT4D 工作原理

相关文章

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Kimi Work 上线：300 个子智能体在你的电脑上同时干活，个人 Agent 之战正式开打

评论区