Stable Audio 3.0 发布：开源音频生成从 11 秒走到 6 分钟

Stable Audio 3.0 发布：开源音频生成从 11 秒走到 6 分钟。

5 月 20 日，Stability AI 发布了 Stable Audio 3.0，四个模型变体，三个开源权重，最长可生成 6 分 20 秒的立体声音频，采样率 44.1 kHz。全部训练数据来自授权许可。

单看数据可能没什么感觉。但如果你还记得 2024 年的 Stable Audio Open，最长只能生成 47 秒音频，2025 年的 Open Small 只有 11 秒，就会明白这个跳跃有多大。从 11 秒到 380 秒，不是线性升级，是量变引发了质变。

为什么 6 分钟这个数字重要？因为一首完整歌曲的平均时长在 3 到 5 分钟之间。之前的开源音频模型要么只能做短音效，要么需要分段拼接，节奏连贯性根本无法保证。Stable Audio 3.0 的 Medium 模型一次生成 6 分 20 秒，意味着你终于可以用开源模型从零生成一首完整的歌，不需要拼接，不需要后处理。

四个模型怎么分工？Stable Audio 3.0 Small SFX 和 Small Music 各 4.59 亿参数，最长 2 分钟，推理速度 0.44 秒（H200），前者专注音效，后者专注短音乐片段。Small 是唯一可以在手机和笔记本上离线跑完整音乐合成的模型。Medium 14 亿参数，最长 6 分 20 秒，推理 1.31 秒。Large 27 亿参数，同样 6 分 20 秒，但音乐性和音质最强，不开源，只能通过 Stability AI API 或企业授权使用。

Small 和 Medium 的权重已在 Hugging Face 开放下载，同时发布的还有 LoRA 微调文档，你可以用自己的音频库来微调模型。

架构上的关键创新是 SAME（Semantically-Aligned Music autoEncoder）。音频生成的核心难题一直是长度：44.1 kHz 立体声意味着每秒 88200 个采样点，一首 6 分钟的歌就是 3170 万个采样点，直接塞进 Transformer 不现实。SAME 用了两级压缩：第一级 256 倍分块，第二级用 Transformer 重采样块再压 16 倍，总共 4096 倍下采样。最终把 44.1 kHz 立体声压缩到大约 10.76 Hz 的潜在序列，256 维。这个压缩比在之前的工作中几乎没人做到过。

为什么压缩比如此关键？因为潜在序列越短，Transformer 的注意力计算越高效，显存占用越低，才有可能在消费级硬件上跑长音频生成。之前 Suno 和 Udio 的模型要么闭源，要么依赖云端算力，开发者没法在本地跑。Stable Audio 3.0 Small 让你可以在手机上离线合成一首 2 分钟的完整音乐，这才是真正改变格局的事。

变量长度生成是另一个容易被忽视的突破。之前的潜在扩散模型都是固定最大序列长度，即使你只生成 10 秒音频，推理也得跑完整个最大长度的序列，浪费算力在静音上。Stable Audio 3.0 原生支持变量长度生成，推理成本随输出时长线性缩放。20 秒音频 0.62 秒出结果，380 秒音频 1.31 秒出结果。短内容不用为长内容的最大长度买单。

Inpainting 编辑功能也值得说。你可以选中一首生成曲目的某一段落，只修改那一部分，同时保持前后不变。你也可以同时编辑多个段落，或者从一段音频的结尾开始继续生成（因果延续）。对于音乐制作人来说，这意味着 AI 音频终于进入了可以精细编辑的阶段，不再只是要么全接受要么全重来。

三阶段训练管线也挺讲究。第一阶段用 Flow Matching 预训练，学习把高斯噪声映射到音频潜在表示。用 Sinkhorn 迭代做 minibatch 最优传输配对，让训练轨迹更直、收敛更快。第二阶段蒸馏热身，冻结教师模型生成 15 步 DPM++ 轨迹，学生模型学会一步到位。第三阶段对抗后训练，用判别器替换 MSE 损失，让一步生成结果逼近真实音频的细节质感。

许可证方面也有诚意。Stability AI 社区许可证下，用户拥有生成的音频文件并可以商业使用。年收入超过 100 万美元（约 700 万人民币）的组织需要联系企业授权，获得商业保障和法律赔偿。和 Suno、Udio 面临版权诉讼的现状相比，Stability AI 选择和环球音乐、华纳音乐签约，全部训练数据来自授权来源。2025 年 11 月慕尼黑法院裁定 OpenAI 因 ChatGPT 复制 GEMA 曲目歌词构成版权侵权，这个判决让授权数据的重要性从法律层面得到了验证。

从 Stable Diffusion 到 Stable Audio 3.0，Stability AI 从图像生成先驱转型为音频专业公司。Emad Mostaque 离职后公司经历了财务困难，但音频赛道反而成为它的差异化壁垒。当 Suno 和 Udio 还在版权泥潭里挣扎时，Stability AI 用授权数据加开源权重打了一张差异化牌。

实操建议：如果你是独立开发者或小型团队，Small 模型足够在手机端做音效和短音乐生成。Medium 模型适合在服务器上批量生成完整歌曲。如果需要最高音质且预算允许，Large 模型通过 API 调用。LoRA 微调文档已经开放，你有自己的音频数据集就可以训练专属风格。

6 分钟不是终点，是开源音频生成第一次真正可用的起点。

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区