具体做法是先用 Nano Banana Pro (或者 GPT-Image-2)生成一张 2K 分辨率的角色多角度参考图集,把同一个角色的正面侧面各种角度塞进一张图里,给视频模型提供足够多的视觉上下文。然后切到视频模式,把这张图集作为参考,选一个支持原生音频的模型(例如 Seedance 2),写个简单的提示词让角色开口说话,提示词里记得加一段声音描述,比如音色、语调之类的。
关键一步在后面。拿到角色说话的视频之后,把参考图集和这段说话视频同时提交给 Seedance 2,之后不管你写什么新提示词,角色的外观和声音都能保持一致。相当于你用图集锁定了角色形象,用说话视频锁定了角色的生意,两个锚点一起用,模型就不会跑偏。
这个流程对写实角色同样适用。上传几张自己的照片加一段自己说话的视频,就能做出自己的数字分身,放到任意场景里。