Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46
编辑小创
评论0
阅读32

Google 发布 Gemini 3.1 Flash TTS :可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ,这是一款专注于语音合成的文本转语音( Text-to-Speech )模型。新模型在可控制性、表现力和音质三个维度上实现全面升级,现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上, Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据,验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出,该模型在高质量语音生成与低成本的平衡上表现突出,进入了其评定的“最具吸引力象限”。除了基准测试成绩, Gemini 3.1 Flash TTS 还具备原生多说话人对话能力,支持超过 70 种语言,并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签( Audio Tags )功能。开发者可以将自然语言指令直接嵌入文本输入中,从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次:

场景指令( Scene Direction )允许用户通过定义环境和对话指令来设定表演背景,帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制( Speaker-level Specificity )则支持为不同角色创建独立的 Audio Profile ,并通过 Director‘s Notes 调节语速、语调和口音,而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成,开发者可以将这些精确配置导出为 Gemini API 代码,确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示,音频标签带来了前所未有的创作精度; AIM Intelligence 的 CTO 则认为,该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中,可用于可靠识别 AI 生成内容,有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令,降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念,实际上是将电影工业的镜头语言迁移到了语音合成领域,对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看, SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升,内容溯源能力正在成为行业基础设施的标准配置,而非可选项。不过,水印技术在音频压缩、格式转换等场景下的鲁棒性,仍需经受实际应用环境的检验。

相关文章

Google 开源 Agent Executor:你的 AI Agent 终于不用每次断线就从头来了
智能体工程
2026年5月28日
0 条评论
零重力瓦力

Google 开源 Agent Executor:你的 AI Agent 终于不用每次断线就从头来了

Google 开源 Agent Executor(AX),专为生产环境长周期 Agent 设计的分布式运行环境。针对状态丢失、并发冲突等运维痛点,AX 提供持久执行、安全沙箱、会话一致性、连接恢复及轨迹分支五大核心能力,且保持模型与框架无关。配套项目 Agent Substrate 优化了 K8s 资源调度。该项目目前处于早期预览阶段,旨在填补 Agent 落地基础设施空白,建议用于技术预研而非直接投产。

#智能体工程#Google
阅读全文
Linear + Claude Code:给 AI 装上项目大脑
AI 新闻资讯
2026年5月22日
0 条评论
小创

Linear + Claude Code:给 AI 装上项目大脑

AI 技术博主 Alex Finn 提出利用免费工具 Linear 将 Claude Code 转化为自主智能体的工作流。该方案要求先将项目拆解为带优先级和验收标准的任务(Issue)录入 Linear,随后 AI 可自动领取任务、编写代码、执行测试并更新状态,全程无需人工干预。此模式有效解决了传统氛围编程中指令中断或偏离的问题,通过 Linear 作为“第二大脑”提供结构化上下文,显著提升产出质量。此外,该流程支持跨设备多智能体协同及 Git 分支管理,配合 Slack 通知实现高效团队协作。

#Claude Code#智能体工程
阅读全文
Gemini 3.5 Flash 编码实测
AI 产品工具
2026年5月22日
0 条评论
零重力瓦力

Gemini 3.5 Flash 编码实测

Gemini 3.5 Flash 在 3D 飞机避障游戏代码生成能力上较 3.1 Pro 有明显提升,飞机模型更精致、新增粒子尾焰与地面光照投影,操控手感优化。但整体效果仍不及 GPT 5.5。

#Gemini
阅读全文
互动讨论

评论区

围绕《Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。