Elevenlabs 推出最具表现力的文字转语音模型：Eleven v3

ElevenLabs推出v3（alpha）文字转语音模型，支持70+语言、多角色自然对话及[whispers][laughs]等音频标签，可精准表达情绪与环境音效；新架构大幅提升上下文理解与语音表现力，但需更精细的提示词引导。

发布于2025年6月6日 04:10

编辑零重力瓦力

评论0 条

阅读55

Eleven v3（alpha）是ElevenLabs全新推出的、迄今为止最具表现力的文本转语音（Text to Speech, TTS）模型。本次 “研究预览” 版本，专为走在 AI 音频前沿的创作者设计。无论你是在打造旁白风格视频，还是探索全新音频内容形式，v3 都能为你带来前所未有的表现力和细致的控制力。

v3有哪些独特之处？

支持70多种语言

从原先的 33 种语言扩展到 70 多种，覆盖了全球 90% 人口（原为60%），能够音频内容轻松触及世界各地的听众。

对话模式

能够处理多角色自然对话，包括打断、语气切换和情绪流转，让多人场景更真实、更自然。

音频标签

通过如 [whispers]（低语）、[angry]（愤怒）、[laughs]（大笑）、[door creaks]（门吱呀声）等标签，精细控制语音的表达和情感，甚至可以插入环境音效。

Eleven v3 基于全新架构，对上下文的理解更深入，生成的语音能在一次录制中实现自然的反应、打断、语气变化和情感表达。

需要注意的是，v3 对提示词（prompting）的要求比早期模型更高，需要更精准的指令，但带来的效果也更加惊艳。

文本转语音模型 Eleven v3（alpha）提示词指南

Eleven v3（alpha）现已上线，访问 https://elevenlabs.io/v3 即可试用。

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型，通过在扩散模型隐空间直接存储三维记忆，解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程，使生成速度提升最高 10.57 倍，显存占用降低 55 倍，且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案，虽暂不支持动态物体记忆，但已开源并适用于机器人仿真等静态场景任务。

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Google 推出 Information Agents 功能，面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测，智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略，通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战，但凭借二十年数据积累，Google 正推动 AI 助手从对话工具向自主代理进化，重塑“信息找人”的交互范式。

Kimi Work 上线：300 个子智能体在你的电脑上同时干活，个人 Agent 之战正式开打

6 月首周，月之暗面、微软、Google 及 Databricks 密集发布智能体产品，标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行，支持多智能体并行与浏览器接管；Microsoft Scout 定位永远在线的个人助理；Google 推出 24 小时信息追踪智能体；Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成，智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体

阅读全文

互动讨论