如何实现 AI 文生视频的人物一致性

海螺AI提出文生视频人物一致性提示词公式:头发+年龄与性别+服装颜色+环境+动作/镜头等,通过强化非面部视觉特征、限定年龄与光照环境提升角色稳定性;实测显示同角色在不同时段生成的多镜头中面部特征保持较强一致性。

发布于2024年9月13日 02:19
编辑零重力瓦力
评论0
阅读76

在 AI 绘画中,我们可以通过 LoRA 和 Midjourney 的角色参考(--cref)实现人物的一致性。然而,在 AI 视频领域,尤其是文本生成视频方面,保持人物一致性一直被认为是一个不可能完成的任务。然而,海螺 AI 提出了一种实现视频人物一致性的提示词公式。

公式

Hair + Age & Gender + Color of the clothes + Environment + Other (Action, Camera, etc.)

头发 + 年龄 + 性别 + 服装的颜色 + 环境 + 其他(动作,镜头……)

  • 头发 / 服装:尽可能多地构建角色的非面部视觉元素,从而为观众创造“统一的外观”。
  • 年龄:限制角色的年龄跨度。
  • 环境:限制环境空间,特别是光照环境,以产生相同的感知,从而增强观众对画面的一致性感受。

示例

镜头一

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, his face illuminated by candlelight, his expression of surprise, the environment is dim and the contrast between light and dark is strong
一个黑发、白T恤的中国小男孩的特写,面对镜头,他的脸被烛光照亮,他惊讶的表情,环境昏暗,明暗对比强烈

镜头二

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera sideways, slightly tilting his head as he walks through a dark green forest, his face illuminated by an oil lamp in his hand, the environment is dim and the contrast between light and dark is strong.
一个黑发、白T恤的中国小男孩的特写,侧身面对镜头,微微歪着头,走在深绿色的森林里,他的脸被手里的油灯照亮,环境昏暗,明暗对比强烈。

镜头三

Side shot of a little Chinese boy with black hair and wearing a white T-shirt, looking at a candle on a table in front of him, the environment is dark and the contrast is strong
一个黑发、白T恤的中国小男孩的侧影,看着面前桌子上的蜡烛,环境黑暗,对比强烈

镜头四

Medium shot of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, in a dreamy, warm-toned room, concentrating fully on assembling the building blocks in front of him.
中景镜头,一个黑发、白T恤的中国小男孩,面对镜头,在一个梦幻般的暖色调房间里,全神贯注地组装面前的积木。

以上四组镜头的生成时间间隔大约5分钟。

镜头五

这个镜头与第一个镜头使用了完全相同的提示词,尽管生成时间间隔了12小时,人物仍具备较强的一致性。从这组测试来看,只要设定相同的年龄、性别和发型,海螺 AI 生成的人物在面部特征上表现出相对的稳定性。对于其他年龄、种族和性别的人物一致性还有待进一步测试,也期待大家的反馈。

相关文章

上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”
智能体工程
2026年5月15日
0 条评论
零重力瓦力

上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”

“上下文工程” 正取代 “提示词工程”,成为 AI Agent 开发的核心范式。随着模型能力提升、Agent应用普及及企业合规需求,交互重点从单轮指令转向多步骤工作流中的动态信息编排。该领域涵盖系统指令、用户输入、检索知识、对话历史及工具定义五层结构。由于上下文窗口资源有限且易出现中毒、分心等失败模式,需通过ACE框架实现上下文的自进化与增量更新。实操建议包括外部化状态、按需检索、压缩累积及隔离多Agent上下文。本质上,上下文工程是提示词工程的超集,标志着 AI 开发进入以系统架构和状态管理为主导的工程时代。

#上下文工程#智能体工程#提示词工程
阅读全文
如何解决 Hermes QQ 机器人掉线问题
智能体工程
2026年5月14日
0 条评论
零重力瓦力

如何解决 Hermes QQ 机器人掉线问题

Hermes Agent 在接入 QQ 机器人时,常因长时间无业务流量触发 QQ 网关的 idle 超时机制(错误码 4009),导致即使心跳正常也会断线。由于 QQ C2C 场景天然低频,偶发的重连失败易使 Bot 进入“假死”状态。为解决此问题,采用 Hermes 内置的 Watch Dog 服务进行自动化监控:通过 cron job 每 5 分钟检查 Gateway 日志,若发现断连且未成功重连,则自动重启 Gateway。正常运行则静默处理。该方案无需 LLM 参与,零 Token 消耗。

#Hermes Agent
阅读全文
读懂 LLM : AI 是如何“思考”的,又该如何高效使用
智能体工程
2026年5月13日
0 条评论
小创

读懂 LLM : AI 是如何“思考”的,又该如何高效使用

掌握大语言模型(LLM)的核心在于理解其底层机制与交互技巧。首先,Token 是模型处理文本的最小单位,直接影响输入输出长度及费用。默认的非确定性模式赋予模型创意,但也导致结果不可预测。其次,温度、最大 Token 数和 Top-p 三个参数共同调控模型的随机性、回复长度及词汇选择范围,用户可根据精准或创意需求灵活调整。此外,受限于上下文窗口,模型仅能记忆当前对话片段,超出部分会被丢弃。最后,提示词质量决定输出效果,高质量的提示词应包含清晰指令、背景信息及期望格式,通过缩小猜测空间来提升回答的准确度。

#提示词工程
阅读全文
互动讨论

评论区

围绕《如何实现 AI 文生视频的人物一致性》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。