
在TechCrunch Disrupt 2025大会上,AI语音领域的领军企业ElevenLabs联合创始人兼CEO马蒂·斯塔尼斯泽夫斯基(Mati Staniszewski)发表了极具前瞻性的观点:AI语音模型即将在未来两到三年内进入“商品化”时代。这一判断揭示了行业发展的新趋势——尽管短期内模型性能仍是核心竞争力,但长期来看,不同模型之间的性能差距将逐渐缩小,特别是在主流语言和通用音色方面。这一趋势预示着AI语音技术正从技术壁垒向广泛应用过渡。
图源备注:图片由AI生成,图片授权服务商Midjourney
面对“既然模型终将同质化,为何还要持续投入研发”的疑问,Staniszewski给出了明确答案:“当前,模型依然是技术竞争的核心。如果AI语音缺乏自然度和流畅性,用户体验将无从谈起。”他强调,ElevenLabs之所以保持领先地位,正是得益于在模型架构上的持续创新,例如情感表达和多语言韵律建模等突破性技术。然而,公司早已将目光投向了后模型时代,Staniszewski指出,ElevenLabs的长期战略并非仅仅作为“模型供应商”,而是致力于打造“AI+产品”的完整生态体系。
正如苹果通过软硬件协同定义了智能手机时代,ElevenLabs也希望以自研模型为核心引擎,推动高价值应用场景的落地,从而构建起真正的竞争壁垒。这种战略布局不仅关注技术本身,更注重技术如何与实际应用相结合,为用户创造真正有价值的体验。
展望未来1-2年,Staniszewski预测,单一模态的语音模型将加速向多模态融合演进。他设想了一个未来场景:“你将同时生成音频与视频,或在对话中实时联动大语言模型与语音引擎。”以Google最新发布的Veo3视频生成模型为例,跨模态协同正成为技术发展的新前沿。为了在这一领域占据先机,ElevenLabs正积极寻求与第三方模型和开源社区合作,探索将其顶尖音频能力嵌入更广泛的AI生态系统中。

例如,通过将ElevenLabs的语音合成与视觉生成、LLM推理深度耦合,打造沉浸式虚拟人、智能客服或互动娱乐体验。这种跨领域的合作不仅能够提升ElevenLabs的技术实力,还能为其用户提供更加丰富和多样化的应用场景。
Staniszewski并不认为模型商品化意味着行业衰退,而是价值重心从底层技术转向应用创新。他解释道:“未来,企业会根据具体场景选择不同的模型——客服系统用一个,游戏配音用另一个,教育讲解再用一个。可靠性、可扩展性和场景适配性,比单纯的‘音质最好’更为重要。”因此,ElevenLabs正同步强化其API平台、开发者工具链与行业解决方案,确保客户不仅能获得高质量的语音服务,还能快速将其集成到真实业务流中。
结语:在AI时代成为“声音基础设施”
随着语音AI从“炫技”走向“实用”,ElevenLabs的选择清晰而务实:短期聚焦模型优化,长期深耕产品创新。当行业共识逐渐指向“模型即服务”(Model-as-a-Commodity)时,真正的赢家或许不是参数最多的公司,而是最懂用户、最能将AI无缝嵌入人类交互场景的那一个。正如Staniszewski所言:“最好的用例,诞生于产品与AI的魔法结合。”而ElevenLabs,正试图成为这场魔法的首席炼金术士。
