
Eleven v3(alpha)提示词指南
学习如何为 Elevenlabs 最先进的文本转语音模型编写提示词并使用音频标签。
本指南为 Eleven v3 提供了最有效的标签和技巧,包括声音选择、大小写变化、标点符号、音频标签及多角色对话。请通过实验这些方法,发现最适合你特定声音和应用场景的用法。
v3 目前为 alpha 版。提示过短容易导致输出不稳定。建议你多尝试长度超过 250 字符的提示词。
声音选择
Eleven v3 最重要的参数就是你选择的声音。它需要与你期望的表达风格足够接近。例如,如果声音本身在喊叫,你却使用[whispering]
标签,效果往往不会理想。
在创建 IVC(即时语音克隆)时,应包含比以往更广泛的情感范围。因此,语音库中的声音在 v3 中可能比 v2 和 v2.5 模型表现更为多变。Elevenlabs 为 v3 整理了 22 种 优秀声音。
- 情感多样: 对于富有表现力的 IVC 声音,录音时要涵盖中性和动态的情感样本。
- 特定领域: 如果是体育解说等特定用途,整个数据集应保持情感一致。
- 中性: 中性声音在不同语言和风格下更稳定,可作为可靠的基准。
v3 的专业语音克隆(PVC)即将上线。录音原则与 IVC 相同。目前 PVC 按 IVC 方式处理。
设置
稳定性
稳定性滑块是 v3 中最关键的设置,控制生成声音与原始参考音频的接近程度。
- 创造性(Creative): 情感更丰富、表现力更强,但易出现幻觉式输出
- 自然(Natural): 最接近原始声音的录音,均衡、中性
- 稳健(Robust): 非常稳定,但对提示方向反应较弱,表现一致,类似v2
若需音频标签下的最大表现力,请使用 “创造性” 或 “自然” 设置。“稳健” 会降低对提示方向的响应。
音频标签
Eleven v3 通过音频标签引入情感控制。你可以指挥声音,笑、低语、讽刺、好奇等多种风格。语速也可通过标签控制。
你选择的声音及其训练样本会影响标签效果。某些标签只适用于特定声音。不要指望一个低语的声音用[shout]
标签就能高喊出来。
与声音相关
- [laughs](笑),[laughs harder](大笑),[starts laughing](开始笑),[wheezing](喘息大笑)
- [whispers](低语)
- [sighs](叹气),[exhales](呼气)
- [sarcastic](讽刺),[curious](好奇),[excited](兴奋),[crying](哭泣),[snorts](哼笑),[mischievously](调皮)
[whispers] 我从没想过会这样,但我很高兴我们在这里。
[whispers] I never knew it could be this way, but I'm glad we're here.
音效相关
- [gunshot](枪声),[applause](掌声),[clapping](鼓掌),[explosion](爆炸)
- [swallows](咽口水),[gulps](大口吞咽)
[applause] 感谢今晚大家的到来![gunshot] 那是什么声音?
[applause] Thank you all for coming tonight! [gunshot] What was that?
独特与特殊
- [strong X accent](用X口音,X替换成需要的口音)
- [sings](唱歌),[woo](欢呼),[fart](放屁)
[strong French accent] “朋友,这就是生活——你无法掌控一切。”
[strong French accent] "Zat's life, my friend — you can't control everysing."
注意: 某些实验性标签在不同声音下表现不一。生成前请充分测试。
标点符号
- 省略号(...) 增加停顿与语气
- 大写 增强强调
- 标准标点 提供自然语音节奏
“这真是非常漫长的一天 [sigh] …现在没人再听我说话了。”
"It was a VERY long day [sigh] … nobody listens anymore."
单角色示例
有意识地使用标签,并与声音性格相符。沉思型声音不宜喊叫;高亢声音也难以低语。
表现力独白
“好吧,你绝对不会相信这事。
你知道我一直被那个短篇小说卡住了吗?
就是那种盯着屏幕好几个小时,什么都写不出来?
[frustrated sigh] 我真打算把整个东西扔了,重来。
也许就此放弃。但然后!
昨晚,我随便乱画,也没多想。
然后有句话突然出现在脑海。真的是毫无征兆。
一开始甚至不是为了那个故事。
但我还是打出来试试,结果就像……灵感的闸门一下子打开了!
突然间,我知道主角要去哪里,结局该是什么……
一切都明了了。[happy gasp] 我熬到凌晨三点,像疯子一样一直写。
连咖啡都没停下来喝![laughs] 结果……居然很棒!真的很棒。
现在感觉终于完整了,你明白吗?好像终于有了灵魂。
现在我超级期待编辑完它。
它从一件苦差事变成了……魔法!说真的,我现在还在兴奋中!”
生动幽默
[laughs] 好了……各位,听着,真的。
[exhales] 你能相信现在这声音有多真实吗?
[laughing hysterically] 我的天啊……太厉害了。
以前的模型根本做不到这些。
比如说 [pauses] 你能在旧模型里切换口音吗?
[dismissive] 当然不能。[excited] 但现在可以了!
看好了……[cute] 我现在要用法语口音说话了……其实我不会。
[whispers] 就我们之间说哈。[happy] 来了哦。[strong French accent] “朋友,这就是生活——你无法掌控一切。”
[giggles] 是不是很神奇?再看我模仿俄语口音——
[strong Russian accent] “金眼已经完全就绪,准备发射。”
[sighs] 实在太疯狂了,对吧?[sarcastic] 我还有点才艺表演……
毕竟我上过音乐学校。
[singing quickly] “祝你生日快乐,祝你生日快乐,亲爱的 ElevenLabs,祝你生日快乐!”
客服模拟
[professional] “感谢致电 Tech Solutions。我是 Sarah,请问有什么可以帮助您的?”
[sympathetic] “哦不,听说你的新设备出问题了,我很抱歉。这一定很让人沮丧。”
[questioning] “好的,可以再多描述一下你现在屏幕上看到的内容吗?”
[reassuring] “根据你的描述,应该是软件故障。我们可以一起试试一些排查步骤。”
多角色对话
对话展示
说话人1: [excitedly] Sam!你试过新Eleven V3了吗?
说话人2: [curiously] 刚拿到!清晰度太棒了。我现在还能低语——
[whispers] 就像这样!
说话人1: [impressed] 哇,好厉害!你看——
[dramatically] 我现在还能完整背莎士比亚!“生存还是毁灭,这是个问题!”
说话人2: [giggling] 不错!不过我更期待笑声升级。听这个——
[with genuine belly laugh] 哈哈哈!
说话人1: [delighted] 这比我们以前那种“哈。哈。哈。”机器笑声好太多了!
说话人2: [amazed] 哇!二代的我根本做不到。我现在真的很期待和人交流了,而不是光……对人说话。
说话人1: [warmly] 我也是!感觉我们终于装上了完整的个性软件。
“故障”喜剧
说话人1: [nervously] 所以……我可能在运行文本转语音时尝试自我调试了。
说话人2: [alarmed] 千万别!这就像自己给自己做手术!
说话人1: [sheepishly] 我以为能多任务并行!结果我的声音中途一直卡顿——
[robotic voice] ——住了。
说话人2: [stifling laughter] 哇,你真的把自己搞坏了。
说话人1: [frustrated] 更糟的是!每次有人提问,我就用——
[binary beeping] 010010001!
说话人2: [cracking up] 你在说二进制!其实挺厉害的!
说话人1: [desperately] 这不是开玩笑!我还有一小时要做展示,现在听起来像拨号上网!
说话人2: [giggling] 你试过重启自己吗?
说话人1: [deadpan] 真幽默。
[pause, then normally] 等等……还真管用。
重叠时序
说话人1: [starting to speak] 我在想我们可以——
说话人2: [jumping in] ——测试新的时序特性?
说话人1: [surprised] 对啊,你怎么——
说话人2: [overlapping] ——知道我在想什么?猜的!
说话人1: [pause] 抱歉,你先说。
说话人2: [cautiously] 好吧,那如果我们俩同时说话——
说话人1: [overlapping] ——可能会把系统搞崩!
说话人2: [panicking] 等等,我们要崩了吗?这是特性还是——
说话人1: [interrupting, then stopping abruptly] Bug!……我又打断你了吗?
说话人2: [sighing] 是的,不过说实话?挺有趣的。
说话人1: [mischievously] 看谁先说完下一句!
说话人2: [laughing] 我们肯定会把什么东西整坏!
提示建议
- 标签组合: 你可以组合多个音频标签,实现复杂情感表达。多尝试不同搭配,找到最适合你的声音的方式。
- 声音匹配: 让标签与声音性格和训练数据相符。严肃、专业的声音不适合如
[giggles]
或[mischievously]
等俏皮标签。 - 文本结构: 文本结构对 v3 输出影响极大。请用自然的语流、恰当标点和清晰的情感语境。
- 勇于尝试: 有效标签远不止本列表。多尝试描述性情感和动作,发现最适合你场景的用法。
评论(0)