是什么让 ElevenLabs 在短短三年间,从零发展成估值110 亿美金的独角兽?成为这场 AI 技术浪潮中当之无愧的赢家。a16z 对 ElevenLabs 联合创始人 Mati Staniszewski 进行了专访,让我们一睹这家传奇公司成长的故事。
如果回到起点,ElevenLabs 的故事似乎也没有那么 “惊心动魄”。Mati 和另一位创始人 Peter 从小在波兰长大。他们很早就注意到一件事,在波兰,外语电影的配音仅仅只由少数几个人完成,不论角色、性别还是情绪。
2021 年,Peter 在 Google 工作,Mati 在 Palantir。两人周末一起做项目,最初只是想看看,能不能用新的模型方式,让语音不仅清晰,而且拥有情绪、语调、能让人产生反应。这个周末项目,就是 ElevenLabs 的起点。
他们很早就做了一件正确的事,没有先定义产品形态,而是把模型开放给一小批用户,用真实反馈推动迭代。哪些声音让人愿意多听几秒,哪些场景真的有用,很快就有了答案。正式上线时,排队的人只有几千,但很快变成了几十万。到 2025 年,ElevenLabs 已经拥有数十万活跃用户,年化收入超过 3.3 亿美元。
ElevenLabs 并不把自己只看作一家语音工具公司。Mati 的判断很明确,语音会成为下一代人机交互的基础,就像鼠标、键盘和触屏一样。屏幕不会消失,但会退到后台。未来你学习、交流、理解世界,更多是通过耳机里的声音完成。你可以听一个物理学家讲课,也可以用另一种语言和陌生文化交流,而且不仅听懂说了什么,还能理解对方的语气和情绪。
在产品和组织上,他们始终坚持一个思路,把研究和产品放在同一条线上。研究不是做完再交付,而是直接在产品中验证。产品团队可以随时把用户反馈交给研究人员,模型也可以立刻上线测试。这种节奏让他们在语音质量上的进步非常快。
团队的组建方式同样反常规。ElevenLabs 早期招人不看标准背景,而是看有没有在某个领域做到过极致。有人是天体物理出身,有人曾是顶级电竞玩家,也有人长期在做个人项目。他们很早就取消了头衔,用远程优先和小团队高自主权的方式运作。这样做的结果是,公司规模已经超过三百人,但内部依然保持着很强的执行力。
在技术判断上,ElevenLabs 押注的是更长期的方向。他们不满足于文本转语音,而是希望做一个统一的音频模型,可以生成语言、音乐和音效。因为在他们看来,语音是一种原始数据,它包含的信息远多于文字。如果模型能真正理解音频,也就更接近理解人类本身。
Mati 提到一个目标,跨过语音的图灵测试。不是让人分不清真假,而是让 AI 的声音可以自然对话,有判断力,也有同理心。这是为什么 ElevenLabs 能在众多 AI 公司中跑出来的原因之一。他们抓住的不是一个短期功能,而是一个更基础的接口变化。
从一个周末项目,到数十万用户,再到百亿美元级别的估值,ElevenLabs 的成长并不靠单点爆发,而是一系列清晰选择的结果。看准语音的长期价值,把研究和产品绑在一起,用新型的组织方式放大个体能力。
