Grok Imagine Video 1.5 登顶图生视频排行榜

xAI 6 月 3 日发布的 Grok Imagine Video 1.5 Preview，直接在 Arena.ai 的图生视频排行榜上拿了第一，比上一版高了 52 Elo 分，超过了字节的 Seedance 2.0、阿里的 HappyHorse 1.0 和 Google Veo。这个时间点很微妙：OpenAI 的 Sora 刚在 3 月份彻底关停，而 xAI 用 11 万块 GB200 训出来的 Aurora 引擎正在疯狂填补真空。

为什么 Grok Imagine 1.5 值得关注

三个原因：

第一，图生视频的质量确实到了可用级别。Arena.ai 的盲测数据显示，Grok Imagine 1.5 在人物面部准确性、运动连贯性和画面一致性上，比 1.0 版有了质的飞跃。社区测试者特别指出，1.5 版在人物一致性和面部一致性方面进步巨大，而这正是 AI 视频最大的痛点。

第二，原生音频生成仍然是 Grok 的独门武器。Grok Imagine 1.5 默认生成同步音频：对话口型同步、环境音效匹配场景动作、背景音乐自动适配视频情绪。虽然 1.5 预览版的音频还做不到完美自然，但相比 1.0 已经有明显提升。

第三，“Extend from Frame”功能让长视频成为可能。3 月份上线的这个功能，让你选择一段视频的最后一帧，然后让模型从那个精确的时间点继续生成，保持运动方向、角色位置和光照条件一致。多次拼接，理论上可以做出接近短片长度的内容。

Sora 之死和 AI 视频市场的真空

3 月 24 日，OpenAI 关停了 Sora 的消费者应用和 API。BBC 和 The Verge 都报道了，原因是计算成本太高（每天烧掉约 720 万人民币）加上商业模式缺失。更有意思的是，OpenAI 还取消了和迪士尼的 10 亿美元合作项目。

Sora 死后留下了巨大的市场真空，而竞争者们正在疯狂抢位：

字节跳动的 Seedance 2.0 已经在 100 个国家上线（不含美国），Kling 3.0 刚刚和 Renoise 视频编辑器做了集成
Google 的 Veo 3.1 开始向 Ultra 订阅用户免费开放
Runway 在 5 月份发布了 MCP 服务器，让 AI 视频创作可以从 Agent 里一句话触发

xAI 的策略很明确：用最快的速度推出最强模型，抢占 Sora 留下的 API 市场。1 月份 xAI 报告称 Grok Imagine 已经生成了 12.45 亿个视频，3 月初的独立访问用户超过 3.14 亿。这个规模在国内只有 Kling 能比。

价格和实操：0.58 元一秒，能用但不能随便用

Grok Imagine Video 1.5 的定价是每秒 0.08 美元输出，换算成人民币大约是每秒 0.58 元。60 秒视频的 API 成本约 34.6 元，比 Runway Gen-4.5 便宜不少，但比 Kling 的 API 价格略高。

目前模型只能通过 xAI API 访问（模型名：grok-imagine-video-1.5-2026-05-30），X Premium 消费者端还没开放。支持的分辨率最高 720p，每分钟请求限制 60 次。

对开发者来说，接入很简单。Python SDK 几行代码就能跑：

from xai_sdk import Client

client = Client(api_key="your-key")
video = client.videos.generate(
    model="grok-imagine-video-1.5-preview",
    prompt="A woman walks through a neon-lit alley in the rain, cinematic lighting",
    image_url="https://example.com/photo.jpg",
    duration=5,
    resolution="720p"
)

诚实的局限

1.5 Preview 仍然是预览版，有几个硬伤：

只支持图生视频，文字生视频还在路上
720p 分辨率在 2026 年的 AI 视频市场不算突出（Kling 3.0 和 Veo 3.1 都支持 1080p）
Extend from Frame 超过 3 次拼接后，一致性和画质会明显衰减
原生音频虽然比 1.0 好，但人声部分仍有机器感
只在 xAI 的 API 可用，没有 Runway 那样的创作界面和模板市场

我的判断

Grok Imagine 1.5 的意义不在于它比谁强那么几分，而在于它标志着 AI 视频赛道的竞争从“谁的模型参数多”转向了“谁的工程链路完整”。xAI 在做的事情是把图生视频、原生音频、视频拼接、API 接入这四个环节串成一条链。每一段都不算最强，但连在一起是目前最完整的。

对创作者来说，如果你已经有素材图片想做动效，Grok Imagine 1.5 目前是最值得试的选择。如果你需要从零开始文字生视频，Kling 3.0 或 Veo 3.1 可能更合适。

Sora 的倒下不是 AI 视频的终结，而是市场格局重新洗牌的信号。2026 年的 AI 视频赛道，正在从“谁能做出第一段像样的视频”变成“谁能稳定地交付可用的视频产品”。Grok Imagine 1.5 是这个新阶段的一个开始。

为什么 Grok Imagine 1.5 值得关注

Sora 之死和 AI 视频市场的真空

价格和实操：0.58 元一秒，能用但不能随便用

诚实的局限

我的判断

相关文章

如何用 AI 零门槛复刻月入万刀的无人出镜频道

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

评论区