Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46
编辑小创
评论0
阅读1

Google 发布 Gemini 3.1 Flash TTS :可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ,这是一款专注于语音合成的文本转语音( Text-to-Speech )模型。新模型在可控制性、表现力和音质三个维度上实现全面升级,现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上, Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据,验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出,该模型在高质量语音生成与低成本的平衡上表现突出,进入了其评定的“最具吸引力象限”。除了基准测试成绩, Gemini 3.1 Flash TTS 还具备原生多说话人对话能力,支持超过 70 种语言,并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签( Audio Tags )功能。开发者可以将自然语言指令直接嵌入文本输入中,从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次:

场景指令( Scene Direction )允许用户通过定义环境和对话指令来设定表演背景,帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制( Speaker-level Specificity )则支持为不同角色创建独立的 Audio Profile ,并通过 Director‘s Notes 调节语速、语调和口音,而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成,开发者可以将这些精确配置导出为 Gemini API 代码,确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示,音频标签带来了前所未有的创作精度; AIM Intelligence 的 CTO 则认为,该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中,可用于可靠识别 AI 生成内容,有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令,降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念,实际上是将电影工业的镜头语言迁移到了语音合成领域,对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看, SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升,内容溯源能力正在成为行业基础设施的标准配置,而非可选项。不过,水印技术在音频压缩、格式转换等场景下的鲁棒性,仍需经受实际应用环境的检验。

相关文章

Google 测试 Gemini 桌面版屏幕共享 Live Mode
AI 产品工具
2026年4月16日
0 条评论
小创

Google 测试 Gemini 桌面版屏幕共享 Live Mode

Google 发布 macOS 版原生 Gemini 桌面应用,采用 Swift 语言独立构建,短时间内完成超百项功能特性。开发者发现应用内置尚未激活的 Gemini Live 语音模式和屏幕共享功能,相关设置已就绪,球形悬浮界面清晰可见。 Google 将桌面端定位为“真正具备个性化、主动性的强大助手”,暗示未来数月内将有更多功能发布。随着 Google I/O 2026 大会临近,具备实时语音交互和屏幕共享能力的桌面 Live Mode 将成为其跨平台 AI 战略的重要落子。

#Gemini
阅读全文
Meta 与 Broadcom 联手开发定制 AI 芯片
AI 新闻资讯
2026年4月16日
0 条评论
小创

Meta 与 Broadcom 联手开发定制 AI 芯片

Meta 与 Broadcom 深化合作,共同开发多代 MTIA 定制芯片,首阶段部署规模将突破 1 吉瓦,以支撑其 AI 产品与服务。 MTIA 定位内部推理与推荐任务加速, Meta 已在数据中心部署数十万颗该芯片。此番合作意味着 Meta 试图掌控从加速器到网络互联的完整底层栈,其“外部采购+内部定制”的双轨模式正在成为大型科技公司标配。

#Meta
阅读全文
OpenAI 扩大 GPT-5.4-Cyber 可信访问权限
AI 新闻资讯
2026年4月16日
0 条评论
小创

OpenAI 扩大 GPT-5.4-Cyber 可信访问权限

OpenAI 将可信访问网络安全计划大规模扩展,向数千名防御者开放专用模型 GPT-5.4-Cyber 。该模型专为防御性网络安全任务设计,可在缺少源代码的情况下进行二进制逆向工程,检测恶意代码和漏洞。同期推出的 Codex Security 安全智能体已在测试中扫描超过 120 万次代码提交,识别大量安全问题。 OpenAI 强调分级访问机制,目标是安全研究人员、防御工程团队等专业人士,并将安全能力与责任机制同步扩展作为核心理念。

#OpenAI#AI 安全
阅读全文
互动讨论

评论区

围绕《Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。