不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象

AI博主Alec分享零出镜视频制作方案：用ElevenLabs克隆声音（十几秒快速版/30分钟专业版），结合Nano Banana Pro生成高分辨率虚拟形象，再通过Creatify Aurora、OmniHuman等工具实现口型同步，一键输出多平台适配的AI视频。

发布于2026年2月4日 15:36

作者零重力瓦力

评论0 条

阅读2

#数字人 #视频生成 #音频生成

不用出镜也能拍视频！AI 创作博主 Alec 教你如何 ElevenLabs，制作一个声音、形象和你一模一样的 AI 克隆人。

流程很简单，先解决声音，再解决形象，最后把两者合在一起。

先说声音。ElevenLabs 提供了两种声音克隆方式。一种是快速克隆，只需要十几秒的音频，就能生成一个可用的声音版本。另一种是专业声音克隆，需要至少三十分钟的高质量录音，但换来的是真实度更高、可长期使用的声音模型。音频质量越好，最终效果越稳定。声音克隆完成后，你只需要打字，就可以用自己的声音生成配音，不用反复录音。

有了声音，下一步是做虚拟形象。平台里有现成的默认人物，也可以用文字描述从零生成，还可以直接上传自己的照片，做一个长得和自己一样的形象。通过图像生成模型，比如 Nano Banana Pro，可以生成分辨率很高的人物图像，还能调整穿着、背景和光线。这里有一个很重要的细节，给视频模型用的图片质量越高，最终视频看起来就越自然，所以建议直接生成 2K 或 4K 的图像。

接下来是把图片和声音变成会说话的视频。ElevenLabs 提供了多种对口型或音频驱动的视频模型。Creatify Aurora 能一次性制作 60 秒的视频，适合稳定讲解类视频。OmniHuman 1.5 的清晰度更高，但一次性只能生成 30 秒视频。LTX Audio to Video 是音频驱动，可以在一定程度上根据提示词生成动作，适合更有创意的画面。不同模型各有取舍，可以根据内容类型来选。

在实际使用中，你可以自由选择视频比例。横版 16:9 适合 YouTube，竖版 9:6 适合 TikTok 和 Reels。同一个声音和形象，可以快速生成不同平台需要的版本。整个过程不需要真正面对镜头，只要输入文字，就能产出一条专业的真人视频。

当然，这个工作流并不只是用来克隆自己。你也可以用真实录音去对口型，或者用变声器把声音换成另一个角色，再配上其他虚拟形象，做成完全虚构的人物。总之，对内容创作者来说，这意味着可以把时间更多放在脚本和创意上，而不是反复拍摄和剪辑。

不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象

相关文章

【AI教程】Notion 工程负责人用 Codex 三小时独立完成一个完整功能

AI 科幻系列短篇《零号竞技场》（Arena Zero）

【AI工具】不是语言模型，也不是图像模型，Luma 的 UNI-1 到底是什么

评论区

不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象

相关文章

【AI教程】Notion 工程负责人 用 Codex 三小时独立完成一个完整功能

AI 科幻系列短篇《零号竞技场》（Arena Zero）

【AI工具】不是语言模型，也不是图像模型，Luma 的 UNI-1 到底是什么

评论区

【AI教程】Notion 工程负责人用 Codex 三小时独立完成一个完整功能