不用出镜也能拍视频!AI 创作博主 Alec 教你如何 ElevenLabs,制作一个声音、形象和你一模一样的 AI 克隆人。

流程很简单,先解决声音,再解决形象,最后把两者合在一起。

先说声音。ElevenLabs 提供了两种声音克隆方式。一种是快速克隆,只需要十几秒的音频,就能生成一个可用的声音版本。另一种是专业声音克隆,需要至少三十分钟的高质量录音,但换来的是真实度更高、可长期使用的声音模型。音频质量越好,最终效果越稳定。声音克隆完成后,你只需要打字,就可以用自己的声音生成配音,不用反复录音。

有了声音,下一步是做虚拟形象。平台里有现成的默认人物,也可以用文字描述从零生成,还可以直接上传自己的照片,做一个长得和自己一样的形象。通过图像生成模型,比如 Nano Banana Pro,可以生成分辨率很高的人物图像,还能调整穿着、背景和光线。这里有一个很重要的细节,给视频模型用的图片质量越高,最终视频看起来就越自然,所以建议直接生成 2K 或 4K 的图像。

接下来是把图片和声音变成会说话的视频。ElevenLabs 提供了多种对口型或音频驱动的视频模型。Creatify Aurora 能一次性制作 60 秒的视频,适合稳定讲解类视频。OmniHuman 1.5 的清晰度更高,但一次性只能生成 30 秒视频。LTX Audio to Video 是音频驱动,可以在一定程度上根据提示词生成动作,适合更有创意的画面。不同模型各有取舍,可以根据内容类型来选。

在实际使用中,你可以自由选择视频比例。横版 16:9 适合 YouTube,竖版 9:6 适合 TikTok 和 Reels。同一个声音和形象,可以快速生成不同平台需要的版本。整个过程不需要真正面对镜头,只要输入文字,就能产出一条专业的真人视频。

当然,这个工作流并不只是用来克隆自己。你也可以用真实录音去对口型,或者用变声器把声音换成另一个角色,再配上其他虚拟形象,做成完全虚构的人物。总之,对内容创作者来说,这意味着可以把时间更多放在脚本和创意上,而不是反复拍摄和剪辑。