你有没有想过,未来我们会怎么用视频、声音,甚至虚拟世界去表达我们的想象?年末,Runway 研究团队带来了一大波重磅升级,让我们提前体验到了 “下一站” 数字创作的模样!
这次发布的亮点有五个,先聊聊大家最关心的视频和音频。Runway 新推出的 Gen-4.5 模型,不仅能自动生成视频,还能同步生成对白、音效、背景音乐,甚至可以直接编辑视频里的声音。简单来说,就是你可以让 AI 直接生成一段 “有声电影”,并且能够随意改台词、加背景乐,让整个制作流程都变得更轻松。
更厉害的是,Gen-4.5 支持多镜头和长视频的统一编辑,角色、环境、光线都能在不同画面之间保持一致。剪辑起来更顺畅,也不用担心前后穿帮的问题。
不过,Runway 的野心远不止于此。他们还正式发布了早在两年前就提出的 “通用世界模型 GWM-1”。(微博正文)真的有种科幻照进现实的既视感!
所谓 “通用世界模型”,就是一种用来模拟和理解真实世界运行规律的技术。以前的视频模型都是一次性生成一段内容,而现在这个新模型可以逐帧预测、实时调整,还能在生成过程中 “接收动作指令”。比如让虚拟角色移动、操控现实中的机械臂,甚至和虚拟环境互动。
是不是有点像在玩 “数字地球”?事实上,Runway 已经把这事做成了产品:GWM Worlds。只需要一句描述或者一张图片,它就能创建出一个你可以随意探索和互动的虚拟空间。从走路、开车、飞无人机,到模拟各种灯光和物理效果,这套系统都能实时反应。这也让训练机器人、做游戏、搞交互体验的门槛一下子被拉低了!
当然,虚拟世界里最难做的还是 “人”。这次 Runway 还带来了 GWM Avatars 技术,让 “数字人” 可以实现实时表情、动作和眼神的同步,还能根据声音生成嘴型和肢体语言。你甚至可以上传照片、选择声音,几分钟就能捏出自己的虚拟分身,参与对话、教学、娱乐,甚至用多种语言进行问答。
最后一项升级是专门为训练机器人设计的 GWM Robotics。和其他机器人控制模型最大的不同在于,它不仅能模拟 “成功”,还可以真实还原各种失败,比如夹取失败、失误等等,帮助机器人更快学会应对各种情况。最重要的是,这些训练、评估和数据生成全都可以在虚拟环境里完成,大大节省了时间和成本,也突破了硬件和物理空间的限制。
此外,Runway 还宣布和 CoreWeave、Nvidia 合作,打造大规模训练平台,目标是让 “通用世界模拟” 和 “虚拟创作” 像手机拍视频一样普及。
可以想象,未来几年的内容创作、虚拟体验、机器人训练,可能都离不开这样的通用世界模型。也许很快,我们每个人都能亲手打造属于自己的虚拟世界和虚拟角色,甚至用它来推动科学和工程的发展。
你会期待这样的未来吗?
