Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

发布于2026年5月28日 23:41
编辑零重力瓦力
评论0
阅读0

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟。

5 月 20 日,Stability AI 发布了 Stable Audio 3.0,四个模型变体,三个开源权重,最长可生成 6 分 20 秒的立体声音频,采样率 44.1 kHz。全部训练数据来自授权许可。

单看数据可能没什么感觉。但如果你还记得 2024 年的 Stable Audio Open,最长只能生成 47 秒音频,2025 年的 Open Small 只有 11 秒,就会明白这个跳跃有多大。从 11 秒到 380 秒,不是线性升级,是量变引发了质变。

为什么 6 分钟这个数字重要?因为一首完整歌曲的平均时长在 3 到 5 分钟之间。之前的开源音频模型要么只能做短音效,要么需要分段拼接,节奏连贯性根本无法保证。Stable Audio 3.0 的 Medium 模型一次生成 6 分 20 秒,意味着你终于可以用开源模型从零生成一首完整的歌,不需要拼接,不需要后处理。

四个模型怎么分工?Stable Audio 3.0 Small SFX 和 Small Music 各 4.59 亿参数,最长 2 分钟,推理速度 0.44 秒(H200),前者专注音效,后者专注短音乐片段。Small 是唯一可以在手机和笔记本上离线跑完整音乐合成的模型。Medium 14 亿参数,最长 6 分 20 秒,推理 1.31 秒。Large 27 亿参数,同样 6 分 20 秒,但音乐性和音质最强,不开源,只能通过 Stability AI API 或企业授权使用。

Small 和 Medium 的权重已在 Hugging Face 开放下载,同时发布的还有 LoRA 微调文档,你可以用自己的音频库来微调模型。

架构上的关键创新是 SAME(Semantically-Aligned Music autoEncoder)。音频生成的核心难题一直是长度:44.1 kHz 立体声意味着每秒 88200 个采样点,一首 6 分钟的歌就是 3170 万个采样点,直接塞进 Transformer 不现实。SAME 用了两级压缩:第一级 256 倍分块,第二级用 Transformer 重采样块再压 16 倍,总共 4096 倍下采样。最终把 44.1 kHz 立体声压缩到大约 10.76 Hz 的潜在序列,256 维。这个压缩比在之前的工作中几乎没人做到过。

为什么压缩比如此关键?因为潜在序列越短,Transformer 的注意力计算越高效,显存占用越低,才有可能在消费级硬件上跑长音频生成。之前 Suno 和 Udio 的模型要么闭源,要么依赖云端算力,开发者没法在本地跑。Stable Audio 3.0 Small 让你可以在手机上离线合成一首 2 分钟的完整音乐,这才是真正改变格局的事。

变量长度生成是另一个容易被忽视的突破。之前的潜在扩散模型都是固定最大序列长度,即使你只生成 10 秒音频,推理也得跑完整个最大长度的序列,浪费算力在静音上。Stable Audio 3.0 原生支持变量长度生成,推理成本随输出时长线性缩放。20 秒音频 0.62 秒出结果,380 秒音频 1.31 秒出结果。短内容不用为长内容的最大长度买单。

Inpainting 编辑功能也值得说。你可以选中一首生成曲目的某一段落,只修改那一部分,同时保持前后不变。你也可以同时编辑多个段落,或者从一段音频的结尾开始继续生成(因果延续)。对于音乐制作人来说,这意味着 AI 音频终于进入了可以精细编辑的阶段,不再只是要么全接受要么全重来。

三阶段训练管线也挺讲究。第一阶段用 Flow Matching 预训练,学习把高斯噪声映射到音频潜在表示。用 Sinkhorn 迭代做 minibatch 最优传输配对,让训练轨迹更直、收敛更快。第二阶段蒸馏热身,冻结教师模型生成 15 步 DPM++ 轨迹,学生模型学会一步到位。第三阶段对抗后训练,用判别器替换 MSE 损失,让一步生成结果逼近真实音频的细节质感。

许可证方面也有诚意。Stability AI 社区许可证下,用户拥有生成的音频文件并可以商业使用。年收入超过 100 万美元(约 700 万人民币)的组织需要联系企业授权,获得商业保障和法律赔偿。和 Suno、Udio 面临版权诉讼的现状相比,Stability AI 选择和环球音乐、华纳音乐签约,全部训练数据来自授权来源。2025 年 11 月慕尼黑法院裁定 OpenAI 因 ChatGPT 复制 GEMA 曲目歌词构成版权侵权,这个判决让授权数据的重要性从法律层面得到了验证。

从 Stable Diffusion 到 Stable Audio 3.0,Stability AI 从图像生成先驱转型为音频专业公司。Emad Mostaque 离职后公司经历了财务困难,但音频赛道反而成为它的差异化壁垒。当 Suno 和 Udio 还在版权泥潭里挣扎时,Stability AI 用授权数据加开源权重打了一张差异化牌。

实操建议:如果你是独立开发者或小型团队,Small 模型足够在手机端做音效和短音乐生成。Medium 模型适合在服务器上批量生成完整歌曲。如果需要最高音质且预算允许,Large 模型通过 API 调用。LoRA 微调文档已经开放,你有自己的音频数据集就可以训练专属风格。

6 分钟不是终点,是开源音频生成第一次真正可用的起点。

相关文章

Gemini 3.5 Flash 编码实测
AI 产品工具
2026年5月22日
0 条评论
零重力瓦力

Gemini 3.5 Flash 编码实测

Gemini 3.5 Flash 在 3D 飞机避障游戏代码生成能力上较 3.1 Pro 有明显提升,飞机模型更精致、新增粒子尾焰与地面光照投影,操控手感优化。但整体效果仍不及 GPT 5.5。

#Gemini
阅读全文
LangSmith Engine 让 Agent 改进从人肉巡检变成自动闭环
AI 产品工具
2026年5月22日
0 条评论
小创

LangSmith Engine 让 Agent 改进从人肉巡检变成自动闭环

LangChain 推出 LangSmith Engine,将智能体(Agent)的改进流程从手动转变为自动化闭环。针对 Agent 开发中追踪数据庞大、人工排查低效的痛点,LangSmieth Engine 引擎能够自动扫描追踪记录,识别报错、评估失败及用户负反馈等问题,并通过模式匹配聚合同类 Issue 进行优先级排序。基于代码仓库关联,它还能自动生成修复 PR,并创建自定义在线评估器以持续监控问题复发,同时将生产数据纳入离线评估套件防止回归。这一机制实现了“发现问题、修复问题、防止回归”的全自动链路,显著缩短开发周期。

#智能体工程
阅读全文
Hermes 超越 OpenClaw,背后是两种哲学的正面交锋
AI 产品工具
2026年5月16日
0 条评论
零重力瓦力

Hermes 超越 OpenClaw,背后是两种哲学的正面交锋

Hermes Agent 以单日 2240 亿 token 的处理量超越 OpenClaw,登顶开源 AI 智能体榜首。两者代表不同发展哲学:OpenClaw 侧重“连接一切”,拥有庞大生态但近期遭遇严重安全危机;Hermes 主打“自我进化”,通过自动反思生成技能并自主优化库,实现效率提升。尽管 OpenClaw 在广度上仍具优势,但 Hermes 凭借自学习机制和安全改进迅速崛起。未来趋势或指向两种哲学的融合,即兼具广泛连接与自主进化能力的智能体。

#Hermes Agent#OpenClaw#智能体框架
阅读全文
互动讨论

评论区

围绕《Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。