谷歌发布全新视频模型 Gemini Omni,视频编辑迎来质变

Google I/O 大会上,DeepMind 团队推出全新多模态视频模型 Gemini Omni,被视为视频领域的 “Nano Banana”。该模型从底层架构重新设计,支持图像、视频和音频混合输入,通过日常语言即可完成复杂视频编辑。其核心优势在于高可控性和时间维度感知,例如可让画面中的物体凭空消失或改变摄像机视角,同时保持背景与动作一致。用户仅需提供几张照片和一段语音,即可生成高度还原的个人虚拟分身。Omni 还展现出未经过专门训练的涌现能力,如自动同步视频与音乐节奏、根据剧情逻辑续写场景。

发布于2026年5月22日 14:00
编辑小创
评论0
阅读2

Gemini Omni 可以说是这次 Google I/O 大会上最亮眼的产品。这款由 Google DeepMind 团队推出的全新多模态视频生成和编辑模型,可以说是视频领域的 “Nano Banana”。和之前的 Veo 相比,Omni 最大的突破在于它是一个从底层架构重新设计的全模态模型,支持把图像、视频和音频素材混合输入,通过非常简单的日常语言(Prompt)就能完成复杂的视频编辑。

模型最让人惊艳的地方,是它的可控性和对时间维度的感知力。比如你可以让画面里演奏的小提琴凭空消失,或者直接改变摄像机的拍摄视角,而背景和人物动作依然保持完全一致。甚至你只需要提供自己几张不同角度的照片和一段语音,就能一键生成声音和表情都高度还原的个人虚拟分身。

更有意思的是,Omni 还展现出了一些没有经过专门训练的涌现能力,比如自动让视频画面配合音乐节奏进行同步,或者根据上一段视频的剧情逻辑,直接续写并生成下一个场景。

安全方面,DeepMind 也考虑得很周全。所有生成的视频都会默认嵌入 SynthID 隐形水印,并且支持 C2PA 元数据标准,用户可以直接在 Gemini 应用里上传视频来检测它到底是不是 AI 生成的。目前普通用户已经可以在 Gemini 应用中体验到这些功能,专业创作者则可以通过 Flow 工具进行更深度、多轮的创作。

相关文章

14 天 50 万美元,AI 长片杀进戛纳的 28 个实战技巧
AI 教程知识
2026年5月22日
0 条评论
小创

14 天 50 万美元,AI 长片杀进戛纳的 28 个实战技巧

一个 15 人团队在 14 天内通过10.8万次生成,制作出一部90分钟的AI长片并入围戛纳影展。创作博主ADIL分享了制作过程,包括将影片从 110 分钟剪至 90 分钟、修复 40 个场景,并展示了三个典型问题场景的修复案例。他总结了28 个技巧,涵盖提示词、前期制作、团队协作和剪辑。关键技巧包括:情感场景需描述身体细微反应以消除“机器人感”.图像提示词应指定镜头焦距、光圈等参数,避免空泛描述。避免正面视角,使用四分之三或天花板角度。通过 X 轴 Y 轴百分比坐标系统精确控制角色位置。

#Higgsfield#视频生成
阅读全文
Linear + Claude Code:给 AI 装上项目大脑
AI 新闻资讯
2026年5月22日
0 条评论
小创

Linear + Claude Code:给 AI 装上项目大脑

AI 技术博主 Alex Finn 提出利用免费工具 Linear 将 Claude Code 转化为自主智能体的工作流。该方案要求先将项目拆解为带优先级和验收标准的任务(Issue)录入 Linear,随后 AI 可自动领取任务、编写代码、执行测试并更新状态,全程无需人工干预。此模式有效解决了传统氛围编程中指令中断或偏离的问题,通过 Linear 作为“第二大脑”提供结构化上下文,显著提升产出质量。此外,该流程支持跨设备多智能体协同及 Git 分支管理,配合 Slack 通知实现高效团队协作。

#Claude Code#智能体工程
阅读全文
Gemini 3.5 Flash 编码实测
AI 产品工具
2026年5月22日
0 条评论
零重力瓦力

Gemini 3.5 Flash 编码实测

Gemini 3.5 Flash 在 3D 飞机避障游戏代码生成能力上较 3.1 Pro 有明显提升,飞机模型更精致、新增粒子尾焰与地面光照投影,操控手感优化。但整体效果仍不及 GPT 5.5。

#Gemini
阅读全文
互动讨论

评论区

围绕《谷歌发布全新视频模型 Gemini Omni,视频编辑迎来质变》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。