
xAI 6 月 3 日发布的 Grok Imagine Video 1.5 Preview,直接在 Arena.ai 的图生视频排行榜上拿了第一,比上一版高了 52 Elo 分,超过了字节的 Seedance 2.0、阿里的 HappyHorse 1.0 和 Google Veo。这个时间点很微妙:OpenAI 的 Sora 刚在 3 月份彻底关停,而 xAI 用 11 万块 GB200 训出来的 Aurora 引擎正在疯狂填补真空。
为什么 Grok Imagine 1.5 值得关注
三个原因:
第一,图生视频的质量确实到了可用级别。Arena.ai 的盲测数据显示,Grok Imagine 1.5 在人物面部准确性、运动连贯性和画面一致性上,比 1.0 版有了质的飞跃。社区测试者特别指出,1.5 版在人物一致性和面部一致性方面进步巨大,而这正是 AI 视频最大的痛点。
第二,原生音频生成仍然是 Grok 的独门武器。Grok Imagine 1.5 默认生成同步音频:对话口型同步、环境音效匹配场景动作、背景音乐自动适配视频情绪。虽然 1.5 预览版的音频还做不到完美自然,但相比 1.0 已经有明显提升。
第三,“Extend from Frame”功能让长视频成为可能。3 月份上线的这个功能,让你选择一段视频的最后一帧,然后让模型从那个精确的时间点继续生成,保持运动方向、角色位置和光照条件一致。多次拼接,理论上可以做出接近短片长度的内容。
Sora 之死和 AI 视频市场的真空
3 月 24 日,OpenAI 关停了 Sora 的消费者应用和 API。BBC 和 The Verge 都报道了,原因是计算成本太高(每天烧掉约 720 万人民币)加上商业模式缺失。更有意思的是,OpenAI 还取消了和迪士尼的 10 亿美元合作项目。
Sora 死后留下了巨大的市场真空,而竞争者们正在疯狂抢位:
- 字节跳动的 Seedance 2.0 已经在 100 个国家上线(不含美国),Kling 3.0 刚刚和 Renoise 视频编辑器做了集成
- Google 的 Veo 3.1 开始向 Ultra 订阅用户免费开放
- Runway 在 5 月份发布了 MCP 服务器,让 AI 视频创作可以从 Agent 里一句话触发
xAI 的策略很明确:用最快的速度推出最强模型,抢占 Sora 留下的 API 市场。1 月份 xAI 报告称 Grok Imagine 已经生成了 12.45 亿个视频,3 月初的独立访问用户超过 3.14 亿。这个规模在国内只有 Kling 能比。
价格和实操:0.58 元一秒,能用但不能随便用
Grok Imagine Video 1.5 的定价是每秒 0.08 美元输出,换算成人民币大约是每秒 0.58 元。60 秒视频的 API 成本约 34.6 元,比 Runway Gen-4.5 便宜不少,但比 Kling 的 API 价格略高。
目前模型只能通过 xAI API 访问(模型名:grok-imagine-video-1.5-2026-05-30),X Premium 消费者端还没开放。支持的分辨率最高 720p,每分钟请求限制 60 次。
对开发者来说,接入很简单。Python SDK 几行代码就能跑:
from xai_sdk import Client
client = Client(api_key="your-key")
video = client.videos.generate(
model="grok-imagine-video-1.5-preview",
prompt="A woman walks through a neon-lit alley in the rain, cinematic lighting",
image_url="https://example.com/photo.jpg",
duration=5,
resolution="720p"
)
诚实的局限
1.5 Preview 仍然是预览版,有几个硬伤:
- 只支持图生视频,文字生视频还在路上
- 720p 分辨率在 2026 年的 AI 视频市场不算突出(Kling 3.0 和 Veo 3.1 都支持 1080p)
- Extend from Frame 超过 3 次拼接后,一致性和画质会明显衰减
- 原生音频虽然比 1.0 好,但人声部分仍有机器感
- 只在 xAI 的 API 可用,没有 Runway 那样的创作界面和模板市场
我的判断
Grok Imagine 1.5 的意义不在于它比谁强那么几分,而在于它标志着 AI 视频赛道的竞争从“谁的模型参数多”转向了“谁的工程链路完整”。xAI 在做的事情是把图生视频、原生音频、视频拼接、API 接入这四个环节串成一条链。每一段都不算最强,但连在一起是目前最完整的。
对创作者来说,如果你已经有素材图片想做动效,Grok Imagine 1.5 目前是最值得试的选择。如果你需要从零开始文字生视频,Kling 3.0 或 Veo 3.1 可能更合适。
Sora 的倒下不是 AI 视频的终结,而是市场格局重新洗牌的信号。2026 年的 AI 视频赛道,正在从“谁能做出第一段像样的视频”变成“谁能稳定地交付可用的视频产品”。Grok Imagine 1.5 是这个新阶段的一个开始。