如何实现 AI 文生视频的人物一致性

海螺AI提出文生视频人物一致性提示词公式:头发+年龄与性别+服装颜色+环境+动作/镜头等,通过强化非面部视觉特征、限定年龄与光照环境提升角色稳定性;实测显示同角色在不同时段生成的多镜头中面部特征保持较强一致性。

发布于2024年9月13日 02:19
编辑零重力瓦力
评论0
阅读219

在 AI 绘画中,我们可以通过 LoRA 和 Midjourney 的角色参考(--cref)实现人物的一致性。然而,在 AI 视频领域,尤其是文本生成视频方面,保持人物一致性一直被认为是一个不可能完成的任务。然而,海螺 AI 提出了一种实现视频人物一致性的提示词公式。

公式

Hair + Age & Gender + Color of the clothes + Environment + Other (Action, Camera, etc.)

头发 + 年龄 + 性别 + 服装的颜色 + 环境 + 其他(动作,镜头……)

  • 头发 / 服装:尽可能多地构建角色的非面部视觉元素,从而为观众创造“统一的外观”。
  • 年龄:限制角色的年龄跨度。
  • 环境:限制环境空间,特别是光照环境,以产生相同的感知,从而增强观众对画面的一致性感受。

示例

镜头一

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, his face illuminated by candlelight, his expression of surprise, the environment is dim and the contrast between light and dark is strong
一个黑发、白T恤的中国小男孩的特写,面对镜头,他的脸被烛光照亮,他惊讶的表情,环境昏暗,明暗对比强烈

镜头二

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera sideways, slightly tilting his head as he walks through a dark green forest, his face illuminated by an oil lamp in his hand, the environment is dim and the contrast between light and dark is strong.
一个黑发、白T恤的中国小男孩的特写,侧身面对镜头,微微歪着头,走在深绿色的森林里,他的脸被手里的油灯照亮,环境昏暗,明暗对比强烈。

镜头三

Side shot of a little Chinese boy with black hair and wearing a white T-shirt, looking at a candle on a table in front of him, the environment is dark and the contrast is strong
一个黑发、白T恤的中国小男孩的侧影,看着面前桌子上的蜡烛,环境黑暗,对比强烈

镜头四

Medium shot of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, in a dreamy, warm-toned room, concentrating fully on assembling the building blocks in front of him.
中景镜头,一个黑发、白T恤的中国小男孩,面对镜头,在一个梦幻般的暖色调房间里,全神贯注地组装面前的积木。

以上四组镜头的生成时间间隔大约5分钟。

镜头五

这个镜头与第一个镜头使用了完全相同的提示词,尽管生成时间间隔了12小时,人物仍具备较强的一致性。从这组测试来看,只要设定相同的年龄、性别和发型,海螺 AI 生成的人物在面部特征上表现出相对的稳定性。对于其他年龄、种族和性别的人物一致性还有待进一步测试,也期待大家的反馈。

相关文章

GLM 5.2 裸跑击败 Claude Code:Semgrep 安全基准实验里的意外结果
智能体工程
2026年6月29日
0 条评论
零重力瓦力

GLM 5.2 裸跑击败 Claude Code:Semgrep 安全基准实验里的意外结果

Semgrep 实验显示,开源模型 GLM 5.2 在无脚手架辅助下,IDOR 漏洞检测 F1 达 39%,超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可,编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利,低成本优势或改变安全审计部署策略。尽管结论受限于特定任务,但证实开源模型在安全领域已具备实战竞争力,值得纳入候选池测试。

#GLM#AI 安全
阅读全文
Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作
智能体工程
2026年6月24日
0 条评论
零重力瓦力

Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本,重写子智能体驱动开发(SDD)方法论,使 AI 编程代码产出速度提升约一倍,token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化,解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性,其核心原则可迁移至各类 AI 编程工作流中,有效提升开发效率与质量。

#智能体工程
阅读全文
拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么
智能体工程
2026年6月21日
0 条评论
零重力瓦力

拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么

拜耳制药和 Thoughtworks 在 Martin Fowler 的博客上发表了一篇完整案例,讲他们花了两年多时间把 PRINCE(Preclinical Information Center)从关键词搜索工具演变成多智能体 RAG 系

#智能体工程
阅读全文
互动讨论

评论区

围绕《如何实现 AI 文生视频的人物一致性》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。