不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象

AI博主Alec分享零出镜视频制作方案：用ElevenLabs克隆声音（十几秒快速版/30分钟专业版），结合Nano Banana Pro生成高分辨率虚拟形象，再通过Creatify Aurora、OmniHuman等工具实现口型同步，一键输出多平台适配的AI视频。

发布于2026年2月4日 15:36

编辑零重力瓦力

评论0 条

阅读54

#数字人 #视频生成 #音频生成

不用出镜也能拍视频！AI 创作博主 Alec 教你如何 ElevenLabs，制作一个声音、形象和你一模一样的 AI 克隆人。

流程很简单，先解决声音，再解决形象，最后把两者合在一起。

先说声音。ElevenLabs 提供了两种声音克隆方式。一种是快速克隆，只需要十几秒的音频，就能生成一个可用的声音版本。另一种是专业声音克隆，需要至少三十分钟的高质量录音，但换来的是真实度更高、可长期使用的声音模型。音频质量越好，最终效果越稳定。声音克隆完成后，你只需要打字，就可以用自己的声音生成配音，不用反复录音。

有了声音，下一步是做虚拟形象。平台里有现成的默认人物，也可以用文字描述从零生成，还可以直接上传自己的照片，做一个长得和自己一样的形象。通过图像生成模型，比如 Nano Banana Pro，可以生成分辨率很高的人物图像，还能调整穿着、背景和光线。这里有一个很重要的细节，给视频模型用的图片质量越高，最终视频看起来就越自然，所以建议直接生成 2K 或 4K 的图像。

接下来是把图片和声音变成会说话的视频。ElevenLabs 提供了多种对口型或音频驱动的视频模型。Creatify Aurora 能一次性制作 60 秒的视频，适合稳定讲解类视频。OmniHuman 1.5 的清晰度更高，但一次性只能生成 30 秒视频。LTX Audio to Video 是音频驱动，可以在一定程度上根据提示词生成动作，适合更有创意的画面。不同模型各有取舍，可以根据内容类型来选。

在实际使用中，你可以自由选择视频比例。横版 16:9 适合 YouTube，竖版 9:6 适合 TikTok 和 Reels。同一个声音和形象，可以快速生成不同平台需要的版本。整个过程不需要真正面对镜头，只要输入文字，就能产出一条专业的真人视频。

当然，这个工作流并不只是用来克隆自己。你也可以用真实录音去对口型，或者用变声器把声音换成另一个角色，再配上其他虚拟形象，做成完全虚构的人物。总之，对内容创作者来说，这意味着可以把时间更多放在脚本和创意上，而不是反复拍摄和剪辑。

如何解决 Hermes Agent 中 QQ Bot “灵魂不在线”

Hermes QQ Bot 常因网络波动出现“灵魂不在线”的静默断连，根源在于 WebSocket 重连逻辑缺陷导致进程未正常退出。目前修复版本已解决重连耗尽问题，但深层异常捕获仍有待完善。建议用户升级至最新版，配置 systemd 或 Docker 自动重启策略，并优化代理超时设置，以保障 QQ Bot 稳定运行。

一个 JSON 公式，让 AI 出图告别抽卡玄学

AI 技术博主 AI Master 提出用 JSON 结构化提示词替代自然语言，解决 AI 绘图修改局部时整体崩坏的问题。该方法将主体、灯光等元素独立分槽，配合 Gemini 提取参考图信息，可实现精准调整颜色或风格而不影响其他细节。此方案适用于角色一致性控制及摄影参数迁移，同样兼容 Veo 3.1 视频生成，让 AI 创作从随机抽卡转向可控的确定性系统。

#Veo#Nano Banana#提示词工程

2026 年 AI 工具全拆解，一个公式搞定所有提示词

AI 技术博主 AI Master 指出，多数用户效果平平源于未掌握底层逻辑。它拆解了语言、图像及视频三大模型的运作机制，并梳理了 2026 年主流工具格局。针对提示词，AI Master 提出文本需明确上下文与角色，图像遵循六要素公式，视频则强调单一动作与环境设定。核心观点在于将 AI 视为需清晰简报的新人，通过迭代而非一次搜索来优化产出，适合希望提升各类生成效果的创作者。

阅读全文

互动讨论

评论区

围绕《不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

不用出镜也能拍视频，如何制作一个和你一模一样的 AI 虚拟形象

相关文章

如何解决 Hermes Agent 中 QQ Bot “灵魂不在线”

一个 JSON 公式，让 AI 出图告别抽卡玄学

2026 年 AI 工具全拆解，一个公式搞定所有提示词

评论区