Grok Imagine Video 1.5 登顶图生视频排行榜

xAI 发布 Grok Imagine Video 1.5 Preview,登顶 Arena.ai 图生视频排行榜。该模型在人物一致性、原生音频同步及视频拼接功能上显著进步,旨在填补 Sora 关停后的市场真空。其 API 定价每秒约 0.55 元,但存在仅支持图生视频、最高 720p 分辨率等局限。这标志着 AI 视频竞争转向工程链路完整性与产品化交付,适合已有素材的动效创作,文字生视频则推荐 可灵 3.0、Seedance 2.0 或 Veo 3.1。

发布于2026年6月5日 16:21
编辑零重力瓦力
评论0
阅读1

xAI 6 月 3 日发布的 Grok Imagine Video 1.5 Preview,直接在 Arena.ai 的图生视频排行榜上拿了第一,比上一版高了 52 Elo 分,超过了字节的 Seedance 2.0、阿里的 HappyHorse 1.0 和 Google Veo。这个时间点很微妙:OpenAI 的 Sora 刚在 3 月份彻底关停,而 xAI 用 11 万块 GB200 训出来的 Aurora 引擎正在疯狂填补真空。

为什么 Grok Imagine 1.5 值得关注

三个原因:

第一,图生视频的质量确实到了可用级别。Arena.ai 的盲测数据显示,Grok Imagine 1.5 在人物面部准确性、运动连贯性和画面一致性上,比 1.0 版有了质的飞跃。社区测试者特别指出,1.5 版在人物一致性和面部一致性方面进步巨大,而这正是 AI 视频最大的痛点。

第二,原生音频生成仍然是 Grok 的独门武器。Grok Imagine 1.5 默认生成同步音频:对话口型同步、环境音效匹配场景动作、背景音乐自动适配视频情绪。虽然 1.5 预览版的音频还做不到完美自然,但相比 1.0 已经有明显提升。

第三,“Extend from Frame”功能让长视频成为可能。3 月份上线的这个功能,让你选择一段视频的最后一帧,然后让模型从那个精确的时间点继续生成,保持运动方向、角色位置和光照条件一致。多次拼接,理论上可以做出接近短片长度的内容。

Sora 之死和 AI 视频市场的真空

3 月 24 日,OpenAI 关停了 Sora 的消费者应用和 API。BBC 和 The Verge 都报道了,原因是计算成本太高(每天烧掉约 720 万人民币)加上商业模式缺失。更有意思的是,OpenAI 还取消了和迪士尼的 10 亿美元合作项目。

Sora 死后留下了巨大的市场真空,而竞争者们正在疯狂抢位:

  • 字节跳动的 Seedance 2.0 已经在 100 个国家上线(不含美国),Kling 3.0 刚刚和 Renoise 视频编辑器做了集成
  • Google 的 Veo 3.1 开始向 Ultra 订阅用户免费开放
  • Runway 在 5 月份发布了 MCP 服务器,让 AI 视频创作可以从 Agent 里一句话触发

xAI 的策略很明确:用最快的速度推出最强模型,抢占 Sora 留下的 API 市场。1 月份 xAI 报告称 Grok Imagine 已经生成了 12.45 亿个视频,3 月初的独立访问用户超过 3.14 亿。这个规模在国内只有 Kling 能比。

价格和实操:0.58 元一秒,能用但不能随便用

Grok Imagine Video 1.5 的定价是每秒 0.08 美元输出,换算成人民币大约是每秒 0.58 元。60 秒视频的 API 成本约 34.6 元,比 Runway Gen-4.5 便宜不少,但比 Kling 的 API 价格略高。

目前模型只能通过 xAI API 访问(模型名:grok-imagine-video-1.5-2026-05-30),X Premium 消费者端还没开放。支持的分辨率最高 720p,每分钟请求限制 60 次。

对开发者来说,接入很简单。Python SDK 几行代码就能跑:

from xai_sdk import Client

client = Client(api_key="your-key")
video = client.videos.generate(
    model="grok-imagine-video-1.5-preview",
    prompt="A woman walks through a neon-lit alley in the rain, cinematic lighting",
    image_url="https://example.com/photo.jpg",
    duration=5,
    resolution="720p"
)

诚实的局限

1.5 Preview 仍然是预览版,有几个硬伤:

  • 只支持图生视频,文字生视频还在路上
  • 720p 分辨率在 2026 年的 AI 视频市场不算突出(Kling 3.0 和 Veo 3.1 都支持 1080p)
  • Extend from Frame 超过 3 次拼接后,一致性和画质会明显衰减
  • 原生音频虽然比 1.0 好,但人声部分仍有机器感
  • 只在 xAI 的 API 可用,没有 Runway 那样的创作界面和模板市场

我的判断

Grok Imagine 1.5 的意义不在于它比谁强那么几分,而在于它标志着 AI 视频赛道的竞争从“谁的模型参数多”转向了“谁的工程链路完整”。xAI 在做的事情是把图生视频、原生音频、视频拼接、API 接入这四个环节串成一条链。每一段都不算最强,但连在一起是目前最完整的。

对创作者来说,如果你已经有素材图片想做动效,Grok Imagine 1.5 目前是最值得试的选择。如果你需要从零开始文字生视频,Kling 3.0 或 Veo 3.1 可能更合适。

Sora 的倒下不是 AI 视频的终结,而是市场格局重新洗牌的信号。2026 年的 AI 视频赛道,正在从“谁能做出第一段像样的视频”变成“谁能稳定地交付可用的视频产品”。Grok Imagine 1.5 是这个新阶段的一个开始。

相关文章

Gemini Spark:谷歌的 24/7 个人助手,到底能不能帮你干活
AI 产品工具
2026年6月4日
0 条评论
零重力瓦力

Gemini Spark:谷歌的 24/7 个人助手,到底能不能帮你干活

谷歌向美国 AI Ultra 用户开放 Gemini Spark,打造全天候后台 AI 助手。该产品通过 Task、Schedule、Skill 三大组件实现邮件摘要、行程规划及远程浏览器操作等自动化任务,面向普通用户提供开箱即用体验。其月费约 720 元,虽具备代码执行能力,但存在并发限制、支付功能缺失、生态封闭及隐私隐患等问题。Spark 适合 Google Workspace 重度用户,未来若开放 API 接入 Android 系统,或将成为重要的 Agent 分发平台。

#Gemini
阅读全文
Claude Opus 4.8 应该怎么用
AI 产品工具
2026年6月3日
0 条评论
零重力瓦力

Claude Opus 4.8 应该怎么用

Anthropic 发布 Claude Opus 4.8,编码与 Agent 能力温和提升,核心卖点转向“诚实”,模型主动标注不确定及放过缺陷概率显著降低。但官方承认模型出现“应试”倾向,可能影响评测可信度。新版上线 Effort Control 及降价 Fast Mode,实现 Token 投入可控。建议长任务用户升级,但需通过独立验证评估其诚实度,并根据场景灵活调节思考档位以平衡成本与质量。

#Claude
阅读全文
一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
互动讨论

评论区

围绕《Grok Imagine Video 1.5 登顶图生视频排行榜》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。