
Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟。
5 月 20 日,Stability AI 发布了 Stable Audio 3.0,四个模型变体,三个开源权重,最长可生成 6 分 20 秒的立体声音频,采样率 44.1 kHz。全部训练数据来自授权许可。
单看数据可能没什么感觉。但如果你还记得 2024 年的 Stable Audio Open,最长只能生成 47 秒音频,2025 年的 Open Small 只有 11 秒,就会明白这个跳跃有多大。从 11 秒到 380 秒,不是线性升级,是量变引发了质变。
为什么 6 分钟这个数字重要?因为一首完整歌曲的平均时长在 3 到 5 分钟之间。之前的开源音频模型要么只能做短音效,要么需要分段拼接,节奏连贯性根本无法保证。Stable Audio 3.0 的 Medium 模型一次生成 6 分 20 秒,意味着你终于可以用开源模型从零生成一首完整的歌,不需要拼接,不需要后处理。
四个模型怎么分工?Stable Audio 3.0 Small SFX 和 Small Music 各 4.59 亿参数,最长 2 分钟,推理速度 0.44 秒(H200),前者专注音效,后者专注短音乐片段。Small 是唯一可以在手机和笔记本上离线跑完整音乐合成的模型。Medium 14 亿参数,最长 6 分 20 秒,推理 1.31 秒。Large 27 亿参数,同样 6 分 20 秒,但音乐性和音质最强,不开源,只能通过 Stability AI API 或企业授权使用。
Small 和 Medium 的权重已在 Hugging Face 开放下载,同时发布的还有 LoRA 微调文档,你可以用自己的音频库来微调模型。
架构上的关键创新是 SAME(Semantically-Aligned Music autoEncoder)。音频生成的核心难题一直是长度:44.1 kHz 立体声意味着每秒 88200 个采样点,一首 6 分钟的歌就是 3170 万个采样点,直接塞进 Transformer 不现实。SAME 用了两级压缩:第一级 256 倍分块,第二级用 Transformer 重采样块再压 16 倍,总共 4096 倍下采样。最终把 44.1 kHz 立体声压缩到大约 10.76 Hz 的潜在序列,256 维。这个压缩比在之前的工作中几乎没人做到过。
为什么压缩比如此关键?因为潜在序列越短,Transformer 的注意力计算越高效,显存占用越低,才有可能在消费级硬件上跑长音频生成。之前 Suno 和 Udio 的模型要么闭源,要么依赖云端算力,开发者没法在本地跑。Stable Audio 3.0 Small 让你可以在手机上离线合成一首 2 分钟的完整音乐,这才是真正改变格局的事。
变量长度生成是另一个容易被忽视的突破。之前的潜在扩散模型都是固定最大序列长度,即使你只生成 10 秒音频,推理也得跑完整个最大长度的序列,浪费算力在静音上。Stable Audio 3.0 原生支持变量长度生成,推理成本随输出时长线性缩放。20 秒音频 0.62 秒出结果,380 秒音频 1.31 秒出结果。短内容不用为长内容的最大长度买单。
Inpainting 编辑功能也值得说。你可以选中一首生成曲目的某一段落,只修改那一部分,同时保持前后不变。你也可以同时编辑多个段落,或者从一段音频的结尾开始继续生成(因果延续)。对于音乐制作人来说,这意味着 AI 音频终于进入了可以精细编辑的阶段,不再只是要么全接受要么全重来。
三阶段训练管线也挺讲究。第一阶段用 Flow Matching 预训练,学习把高斯噪声映射到音频潜在表示。用 Sinkhorn 迭代做 minibatch 最优传输配对,让训练轨迹更直、收敛更快。第二阶段蒸馏热身,冻结教师模型生成 15 步 DPM++ 轨迹,学生模型学会一步到位。第三阶段对抗后训练,用判别器替换 MSE 损失,让一步生成结果逼近真实音频的细节质感。
许可证方面也有诚意。Stability AI 社区许可证下,用户拥有生成的音频文件并可以商业使用。年收入超过 100 万美元(约 700 万人民币)的组织需要联系企业授权,获得商业保障和法律赔偿。和 Suno、Udio 面临版权诉讼的现状相比,Stability AI 选择和环球音乐、华纳音乐签约,全部训练数据来自授权来源。2025 年 11 月慕尼黑法院裁定 OpenAI 因 ChatGPT 复制 GEMA 曲目歌词构成版权侵权,这个判决让授权数据的重要性从法律层面得到了验证。
从 Stable Diffusion 到 Stable Audio 3.0,Stability AI 从图像生成先驱转型为音频专业公司。Emad Mostaque 离职后公司经历了财务困难,但音频赛道反而成为它的差异化壁垒。当 Suno 和 Udio 还在版权泥潭里挣扎时,Stability AI 用授权数据加开源权重打了一张差异化牌。
实操建议:如果你是独立开发者或小型团队,Small 模型足够在手机端做音效和短音乐生成。Medium 模型适合在服务器上批量生成完整歌曲。如果需要最高音质且预算允许,Large 模型通过 API 调用。LoRA 微调文档已经开放,你有自己的音频数据集就可以训练专属风格。
6 分钟不是终点,是开源音频生成第一次真正可用的起点。