文本转语音模型 Eleven v3(alpha) 提示词指南

Eleven v3(alpha)提示词指南

学习如何为 Elevenlabs 最先进的文本转语音模型编写提示词并使用音频标签。

本指南为 Eleven v3 提供了最有效的标签和技巧,包括声音选择、大小写变化、标点符号、音频标签及多角色对话。请通过实验这些方法,发现最适合你特定声音和应用场景的用法。

v3 目前为 alpha 版。提示过短容易导致输出不稳定。建议你多尝试长度超过 250 字符的提示词。

声音选择

Eleven v3 最重要的参数就是你选择的声音。它需要与你期望的表达风格足够接近。例如,如果声音本身在喊叫,你却使用[whispering]标签,效果往往不会理想。

在创建 IVC(即时语音克隆)时,应包含比以往更广泛的情感范围。因此,语音库中的声音在 v3 中可能比 v2 和 v2.5 模型表现更为多变。Elevenlabs 为 v3 整理了 22 种 优秀声音

  • 情感多样: 对于富有表现力的 IVC 声音,录音时要涵盖中性和动态的情感样本。
  • 特定领域: 如果是体育解说等特定用途,整个数据集应保持情感一致。
  • 中性: 中性声音在不同语言和风格下更稳定,可作为可靠的基准。

v3 的专业语音克隆(PVC)即将上线。录音原则与 IVC 相同。目前 PVC 按 IVC 方式处理。

设置

稳定性

稳定性滑块是 v3 中最关键的设置,控制生成声音与原始参考音频的接近程度。

  • 创造性(Creative): 情感更丰富、表现力更强,但易出现幻觉式输出
  • 自然(Natural): 最接近原始声音的录音,均衡、中性
  • 稳健(Robust): 非常稳定,但对提示方向反应较弱,表现一致,类似v2

若需音频标签下的最大表现力,请使用 “创造性” 或 “自然” 设置。“稳健” 会降低对提示方向的响应。

音频标签

Eleven v3 通过音频标签引入情感控制。你可以指挥声音,笑、低语、讽刺、好奇等多种风格。语速也可通过标签控制。

你选择的声音及其训练样本会影响标签效果。某些标签只适用于特定声音。不要指望一个低语的声音用[shout]标签就能高喊出来。

与声音相关

  • [laughs](笑),[laughs harder](大笑),[starts laughing](开始笑),[wheezing](喘息大笑)
  • [whispers](低语)
  • [sighs](叹气),[exhales](呼气)
  • [sarcastic](讽刺),[curious](好奇),[excited](兴奋),[crying](哭泣),[snorts](哼笑),[mischievously](调皮)
[whispers] 我从没想过会这样,但我很高兴我们在这里。
[whispers] I never knew it could be this way, but I'm glad we're here.

音效相关

  • [gunshot](枪声),[applause](掌声),[clapping](鼓掌),[explosion](爆炸)
  • [swallows](咽口水),[gulps](大口吞咽)
[applause] 感谢今晚大家的到来![gunshot] 那是什么声音?
[applause] Thank you all for coming tonight! [gunshot] What was that?

独特与特殊

  • [strong X accent](用X口音,X替换成需要的口音)
  • [sings](唱歌),[woo](欢呼),[fart](放屁)
[strong French accent] “朋友,这就是生活——你无法掌控一切。”
[strong French accent] "Zat's life, my friend — you can't control everysing."

注意: 某些实验性标签在不同声音下表现不一。生成前请充分测试。

标点符号

  • 省略号(...) 增加停顿与语气
  • 大写 增强强调
  • 标准标点 提供自然语音节奏
“这真是非常漫长的一天 [sigh] …现在没人再听我说话了。”
"It was a VERY long day [sigh] … nobody listens anymore."

单角色示例

有意识地使用标签,并与声音性格相符。沉思型声音不宜喊叫;高亢声音也难以低语。

表现力独白

“好吧,你绝对不会相信这事。

你知道我一直被那个短篇小说卡住了吗?

就是那种盯着屏幕好几个小时,什么都写不出来?

[frustrated sigh] 我真打算把整个东西扔了,重来。

也许就此放弃。但然后!

昨晚,我随便乱画,也没多想。

然后有句话突然出现在脑海。真的是毫无征兆。

一开始甚至不是为了那个故事。

但我还是打出来试试,结果就像……灵感的闸门一下子打开了!

突然间,我知道主角要去哪里,结局该是什么……

一切都明了了。[happy gasp] 我熬到凌晨三点,像疯子一样一直写。

连咖啡都没停下来喝![laughs] 结果……居然很棒!真的很棒。

现在感觉终于完整了,你明白吗?好像终于有了灵魂。

现在我超级期待编辑完它。

它从一件苦差事变成了……魔法!说真的,我现在还在兴奋中!”

生动幽默

[laughs] 好了……各位,听着,真的。

[exhales] 你能相信现在这声音有多真实吗?

[laughing hysterically] 我的天啊……太厉害了。

以前的模型根本做不到这些。

比如说 [pauses] 你能在旧模型里切换口音吗?

[dismissive] 当然不能。[excited] 但现在可以了!

看好了……[cute] 我现在要用法语口音说话了……其实我不会。

[whispers] 就我们之间说哈。[happy] 来了哦。[strong French accent] “朋友,这就是生活——你无法掌控一切。”

[giggles] 是不是很神奇?再看我模仿俄语口音——

[strong Russian accent] “金眼已经完全就绪,准备发射。”

[sighs] 实在太疯狂了,对吧?[sarcastic] 我还有点才艺表演……

毕竟我上过音乐学校。

[singing quickly] “祝你生日快乐,祝你生日快乐,亲爱的 ElevenLabs,祝你生日快乐!”

客服模拟

[professional] “感谢致电 Tech Solutions。我是 Sarah,请问有什么可以帮助您的?”

[sympathetic] “哦不,听说你的新设备出问题了,我很抱歉。这一定很让人沮丧。”

[questioning] “好的,可以再多描述一下你现在屏幕上看到的内容吗?”

[reassuring] “根据你的描述,应该是软件故障。我们可以一起试试一些排查步骤。”

多角色对话

对话展示

说话人1: [excitedly] Sam!你试过新Eleven V3了吗?

说话人2: [curiously] 刚拿到!清晰度太棒了。我现在还能低语——
[whispers] 就像这样!

说话人1: [impressed] 哇,好厉害!你看——
[dramatically] 我现在还能完整背莎士比亚!“生存还是毁灭,这是个问题!”

说话人2: [giggling] 不错!不过我更期待笑声升级。听这个——
[with genuine belly laugh] 哈哈哈!

说话人1: [delighted] 这比我们以前那种“哈。哈。哈。”机器笑声好太多了!

说话人2: [amazed] 哇!二代的我根本做不到。我现在真的很期待和人交流了,而不是光……对人说话。

说话人1: [warmly] 我也是!感觉我们终于装上了完整的个性软件。

“故障”喜剧

说话人1: [nervously] 所以……我可能在运行文本转语音时尝试自我调试了。

说话人2: [alarmed] 千万别!这就像自己给自己做手术!

说话人1: [sheepishly] 我以为能多任务并行!结果我的声音中途一直卡顿——
[robotic voice] ——住了。

说话人2: [stifling laughter] 哇,你真的把自己搞坏了。

说话人1: [frustrated] 更糟的是!每次有人提问,我就用——
[binary beeping] 010010001!

说话人2: [cracking up] 你在说二进制!其实挺厉害的!

说话人1: [desperately] 这不是开玩笑!我还有一小时要做展示,现在听起来像拨号上网!

说话人2: [giggling] 你试过重启自己吗?

说话人1: [deadpan] 真幽默。
[pause, then normally] 等等……还真管用。

重叠时序

说话人1: [starting to speak] 我在想我们可以——

说话人2: [jumping in] ——测试新的时序特性?

说话人1: [surprised] 对啊,你怎么——

说话人2: [overlapping] ——知道我在想什么?猜的!

说话人1: [pause] 抱歉,你先说。

说话人2: [cautiously] 好吧,那如果我们俩同时说话——

说话人1: [overlapping] ——可能会把系统搞崩!

说话人2: [panicking] 等等,我们要崩了吗?这是特性还是——

说话人1: [interrupting, then stopping abruptly] Bug!……我又打断你了吗?

说话人2: [sighing] 是的,不过说实话?挺有趣的。

说话人1: [mischievously] 看谁先说完下一句!

说话人2: [laughing] 我们肯定会把什么东西整坏!

提示建议

  • 标签组合: 你可以组合多个音频标签,实现复杂情感表达。多尝试不同搭配,找到最适合你的声音的方式。
  • 声音匹配: 让标签与声音性格和训练数据相符。严肃、专业的声音不适合如[giggles][mischievously]等俏皮标签。
  • 文本结构: 文本结构对 v3 输出影响极大。请用自然的语流、恰当标点和清晰的情感语境。
  • 勇于尝试: 有效标签远不止本列表。多尝试描述性情感和动作,发现最适合你场景的用法。

原文

Prompting Eleven v3 (alpha)