文本转语音模型 Eleven v3（alpha）提示词指南

Eleven v3（alpha）提示词指南

学习如何为 Elevenlabs 最先进的文本转语音模型编写提示词并使用音频标签。

本指南为 Eleven v3 提供了最有效的标签和技巧，包括声音选择、大小写变化、标点符号、音频标签及多角色对话。请通过实验这些方法，发现最适合你特定声音和应用场景的用法。

v3 目前为 alpha 版。提示过短容易导致输出不稳定。建议你多尝试长度超过 250 字符的提示词。

声音选择

Eleven v3 最重要的参数就是你选择的声音。它需要与你期望的表达风格足够接近。例如，如果声音本身在喊叫，你却使用

[whispering]

标签，效果往往不会理想。

在创建 IVC（即时语音克隆）时，应包含比以往更广泛的情感范围。因此，语音库中的声音在 v3 中可能比 v2 和 v2.5 模型表现更为多变。Elevenlabs 为 v3 整理了 22 种优秀声音。

情感多样： 对于富有表现力的 IVC 声音，录音时要涵盖中性和动态的情感样本。
特定领域： 如果是体育解说等特定用途，整个数据集应保持情感一致。
中性： 中性声音在不同语言和风格下更稳定，可作为可靠的基准。

v3 的专业语音克隆（PVC）即将上线。录音原则与 IVC 相同。目前 PVC 按 IVC 方式处理。

设置

稳定性

稳定性滑块是 v3 中最关键的设置，控制生成声音与原始参考音频的接近程度。

创造性（Creative）： 情感更丰富、表现力更强，但易出现幻觉式输出
自然（Natural）： 最接近原始声音的录音，均衡、中性
稳健（Robust）： 非常稳定，但对提示方向反应较弱，表现一致，类似v2

若需音频标签下的最大表现力，请使用 “创造性” 或 “自然” 设置。“稳健” 会降低对提示方向的响应。

音频标签

Eleven v3 通过音频标签引入情感控制。你可以指挥声音，笑、低语、讽刺、好奇等多种风格。语速也可通过标签控制。

你选择的声音及其训练样本会影响标签效果。某些标签只适用于特定声音。不要指望一个低语的声音用

[shout]

标签就能高喊出来。

与声音相关

[laughs]（笑），[laughs harder]（大笑），[starts laughing]（开始笑），[wheezing]（喘息大笑）
[whispers]（低语）
[sighs]（叹气），[exhales]（呼气）
[sarcastic]（讽刺），[curious]（好奇），[excited]（兴奋），[crying]（哭泣），[snorts]（哼笑），[mischievously]（调皮）

[whispers] 我从没想过会这样，但我很高兴我们在这里。
[whispers] I never knew it could be this way, but I'm glad we're here.

音效相关

[gunshot]（枪声），[applause]（掌声），[clapping]（鼓掌），[explosion]（爆炸）
[swallows]（咽口水），[gulps]（大口吞咽）

[applause] 感谢今晚大家的到来！[gunshot] 那是什么声音？
[applause] Thank you all for coming tonight! [gunshot] What was that?

独特与特殊

[strong X accent]（用X口音，X替换成需要的口音）
[sings]（唱歌），[woo]（欢呼），[fart]（放屁）

[strong French accent] “朋友，这就是生活——你无法掌控一切。”
[strong French accent] "Zat's life, my friend — you can't control everysing."

注意： 某些实验性标签在不同声音下表现不一。生成前请充分测试。

标点符号

省略号（...） 增加停顿与语气
大写增强强调
标准标点 提供自然语音节奏

“这真是非常漫长的一天 [sigh] …现在没人再听我说话了。”
"It was a VERY long day [sigh] … nobody listens anymore."

单角色示例

有意识地使用标签，并与声音性格相符。沉思型声音不宜喊叫；高亢声音也难以低语。

表现力独白

“好吧，你绝对不会相信这事。

你知道我一直被那个短篇小说卡住了吗？

就是那种盯着屏幕好几个小时，什么都写不出来？

[frustrated sigh] 我真打算把整个东西扔了，重来。

也许就此放弃。但然后！

昨晚，我随便乱画，也没多想。

然后有句话突然出现在脑海。真的是毫无征兆。

一开始甚至不是为了那个故事。

但我还是打出来试试，结果就像……灵感的闸门一下子打开了！

突然间，我知道主角要去哪里，结局该是什么……

一切都明了了。[happy gasp] 我熬到凌晨三点，像疯子一样一直写。

连咖啡都没停下来喝！[laughs] 结果……居然很棒！真的很棒。

现在感觉终于完整了，你明白吗？好像终于有了灵魂。

现在我超级期待编辑完它。

它从一件苦差事变成了……魔法！说真的，我现在还在兴奋中！”

生动幽默

[laughs] 好了……各位，听着，真的。

[exhales] 你能相信现在这声音有多真实吗？

[laughing hysterically] 我的天啊……太厉害了。

以前的模型根本做不到这些。

比如说 [pauses] 你能在旧模型里切换口音吗？

[dismissive] 当然不能。[excited] 但现在可以了！

看好了……[cute] 我现在要用法语口音说话了……其实我不会。

[whispers] 就我们之间说哈。[happy] 来了哦。[strong French accent] “朋友，这就是生活——你无法掌控一切。”

[giggles] 是不是很神奇？再看我模仿俄语口音——

[strong Russian accent] “金眼已经完全就绪，准备发射。”

[sighs] 实在太疯狂了，对吧？[sarcastic] 我还有点才艺表演……

毕竟我上过音乐学校。

[singing quickly] “祝你生日快乐，祝你生日快乐，亲爱的 ElevenLabs，祝你生日快乐！”

客服模拟

[professional] “感谢致电 Tech Solutions。我是 Sarah，请问有什么可以帮助您的？”

[sympathetic] “哦不，听说你的新设备出问题了，我很抱歉。这一定很让人沮丧。”

[questioning] “好的，可以再多描述一下你现在屏幕上看到的内容吗？”

[reassuring] “根据你的描述，应该是软件故障。我们可以一起试试一些排查步骤。”

多角色对话

对话展示

说话人1: [excitedly] Sam！你试过新Eleven V3了吗？

说话人2: [curiously] 刚拿到！清晰度太棒了。我现在还能低语——
[whispers] 就像这样！

说话人1: [impressed] 哇，好厉害！你看——
[dramatically] 我现在还能完整背莎士比亚！“生存还是毁灭，这是个问题！”

说话人2: [giggling] 不错！不过我更期待笑声升级。听这个——
[with genuine belly laugh] 哈哈哈！

说话人1: [delighted] 这比我们以前那种“哈。哈。哈。”机器笑声好太多了！

说话人2: [amazed] 哇！二代的我根本做不到。我现在真的很期待和人交流了，而不是光……对人说话。

说话人1: [warmly] 我也是！感觉我们终于装上了完整的个性软件。

“故障”喜剧

说话人1: [nervously] 所以……我可能在运行文本转语音时尝试自我调试了。

说话人2: [alarmed] 千万别！这就像自己给自己做手术！

说话人1: [sheepishly] 我以为能多任务并行！结果我的声音中途一直卡顿——
[robotic voice] ——住了。

说话人2: [stifling laughter] 哇，你真的把自己搞坏了。

说话人1: [frustrated] 更糟的是！每次有人提问，我就用——
[binary beeping] 010010001！

说话人2: [cracking up] 你在说二进制！其实挺厉害的！

说话人1: [desperately] 这不是开玩笑！我还有一小时要做展示，现在听起来像拨号上网！

说话人2: [giggling] 你试过重启自己吗？

说话人1: [deadpan] 真幽默。
[pause, then normally] 等等……还真管用。

重叠时序

说话人1: [starting to speak] 我在想我们可以——

说话人2: [jumping in] ——测试新的时序特性？

说话人1: [surprised] 对啊，你怎么——

说话人2: [overlapping] ——知道我在想什么？猜的！

说话人1: [pause] 抱歉，你先说。

说话人2: [cautiously] 好吧，那如果我们俩同时说话——

说话人1: [overlapping] ——可能会把系统搞崩！

说话人2: [panicking] 等等，我们要崩了吗？这是特性还是——

说话人1: [interrupting, then stopping abruptly] Bug！……我又打断你了吗？

说话人2: [sighing] 是的，不过说实话？挺有趣的。

说话人1: [mischievously] 看谁先说完下一句！

说话人2: [laughing] 我们肯定会把什么东西整坏！

提示建议

标签组合： 你可以组合多个音频标签，实现复杂情感表达。多尝试不同搭配，找到最适合你的声音的方式。
声音匹配： 让标签与声音性格和训练数据相符。严肃、专业的声音不适合如
```
[giggles]
```
或
```
[mischievously]
```
等俏皮标签。
文本结构： 文本结构对 v3 输出影响极大。请用自然的语流、恰当标点和清晰的情感语境。
勇于尝试： 有效标签远不止本列表。多尝试描述性情感和动作，发现最适合你场景的用法。

原文

Prompting Eleven v3 (alpha)

Eleven v3（alpha）提示词指南

声音选择

设置

稳定性

音频标签

与声音相关

音效相关

独特与特殊

标点符号

单角色示例

表现力独白

生动幽默

客服模拟

多角色对话

对话展示

“故障”喜剧

重叠时序

提示建议

原文

相关文章

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

拜耳用 3 层反思循环把 AI 拉进制药生产线：上下文工程和 harness 工程到底在干什么

评论区

文本转语音模型 Eleven v3（alpha） 提示词指南

Eleven v3（alpha）提示词指南

声音选择

设置

稳定性

音频标签

与声音相关

音效相关

独特与特殊

标点符号

单角色示例

表现力独白

生动幽默

客服模拟

多角色对话

对话展示

“故障”喜剧

重叠时序

提示建议

原文

相关文章

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

拜耳用 3 层反思循环把 AI 拉进制药生产线：上下文工程和 harness 工程到底在干什么

评论区

文本转语音模型 Eleven v3（alpha）提示词指南