AI语音输入融资热潮背后：资本押注“零编辑”语音技术

2025-07-30 21:04:46 互联网 44 次阅读

声明：本文源自微信公众号白鲸出海，作者张凯然，经站长之家授权转载发布。7月16日，语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金，领投方为知名孵化器YC。而仅数日前，6月25日，另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前，我们持续关注AI语音技术领域，但获得融资的多数专注于语音合成技术，即“输出”端。例如，行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资，估值突破30亿美元。然而，近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业，正逐渐赢得资本市场的青睐。

语音输入技术并非新生事物，早在2012年就已出现，为何近期仍能获得资本关注？Willow Voice和Wispr Flow（以下简称Willow和Flow）均专注于自动语音识别（ASR）技术，其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮，即可将口语实时转化为文字。表面上看，这项技术已融入日常生活，微信早在2019年便在iOS端推出“语音转文字”功能，苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外，ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

根据Voice Writer.io的测试数据（发布时间：2025年2月），在格式化文本输出场景下，除Google Cloud的转录功能表现稍弱外，其他产品差异不大。所有产品的错词率平均提升了10%，而非格式化文本场景下的错词率则普遍低于10%，与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出，尽管AI在非格式化文本转录时的错误率已降至极低水平，但仍有改进空间。即使错误率降至1%以下，仍意味着每几句话就可能出现错词，用户难以完全信任AI的输出结果。由于口语与书面语存在差异，即使模型能完整转录用户语音，输出文本仍需人工简化和修正，无法直接用于正式场合。

基于这一理念，Flow与传统的语音转文字产品形成差异化竞争，致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节，确保用户获得可直接使用的文本。这一处理过程分为三个层面：一是格式化文字输出，包括正确断句、去除语气词等；二是上下文理解，如自动纠正口误、识别情绪等；三是语境识别，即根据不同输入场景（如DM、邮件、笔记）输出不同风格的文字。

初步对比测试显示，OpenAI Whisper仅实现第一层功能，Flow和Willow达到第二层，而第三层能力尚未完全实现。从产品逻辑来看，Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程，因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中，ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow，并透露几乎每日使用。从推荐内容看，他们主要面向需要高效处理大量信息的VC/创业者/高管群体，这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

在通过VC/创业者群体实现初期裂变后，Flow开始通过Product Hunt触达更多目标用户，包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似，这部分用户同样面临大量文字处理需求，且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点，我们选取To do List、邮件回复、会前备忘录三个场景，对Willow、Flow及ChatGPT听写功能（Whisper模型驱动）进行对比测试。

测试场景1：To do List场景
场景描述：某团队负责人在通勤路上需要梳理当日重要事项，并在笔记App中记录。口语化内容：“嗯…今天首先要更新主页面的图标，然后在三点半前发上线通知。第二，四点钟要与团队开复盘会。还有，把上周的日报发给John。第三，五点前，把用户反馈汇总文档整理了，最后，晚上七点前，把下周的排期发给产品。”输出要求：关键信息准确，代办事项自动分点呈现。测试结果显示，三款产品均未遗漏核心信息，Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段，而OpenAI Whisper表现最差，未分段且添加冗余文字。

测试场景2：含专业术语的备忘录场景
场景描述：某券商分析师在财报点评会前需总结财报亮点，形成文字备忘录并分享给团队成员。口语化内容：“呃…我刚看了那个财报，XX这季度虽然同比是有增长的，但是环比是负的，然后它那个订阅收入占比在上升，主要是那个XX和XX的贡献吧，另外它跟阿里的那个可转债得看看了，就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块，营收增速还是偏保守。”输出要求：关键信息准确，专业术语正确，语气偏正式。测试发现，三款产品在“摊薄风险”等术语上均出现错误，Willow和Whisper也出现较多其他错误。值得注意的是，Flow在用户手动添加术语后仍无法正确输出，表明专业场景下仍存在局限。此外，三款产品均未修正“环比是负的”等口语化表达，也未进行逻辑梳理。

测试场景3：回复客户邮件场景
场景描述：某用户在机场需回复客户咨询邮件并提供建议。口语化内容：“您好，看到你们说想优化销售流程，我感觉其实你们现在的问题还挺典型的，就是前期线索进来之后没有特别系统的筛选机制吧，然后导致后面销售在跟进的时候效率挺低的——像这种情况，我们之前有几个客户也遇到过，一般会建议统一一下线索评分的标准，或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下，到时候你看看是不是有参考价值哈。”输出要求：自动分段、呈现邮件格式、文风正式。测试显示，Flow和Willow均按邮件格式处理“你好”等元素，Flow在分段方面表现更优。三款产品均未有效转化口语化表达，仅Flow将“到时候”改为“届时”。整体而言，邮件文风仍偏口语化，需人工修改。

体验下来，Flow和Willow的输出质量尚可，但距离“零编辑”目标仍有一定差距。尽管如此，根据媒体报道，Flow的用户粘性和付费率表现突出，月环比用户增长超50%，6个月活跃用户留存率达80%，付费率高达19%，2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标，但Flow的高用户粘性和付费率表明，尽管当前语音输入技术仍需人工干预，但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示，Flow在非正式输入场景中表现优异，如与Cursor进行自然语言交互（Vibe Coding）等场景。该场景下，用户只需按Mac键盘特定按键即可实现语音交互，Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出，通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”，但随着大模型能力的持续提升与数据积累，未来有望显著改善。根据Flow创始人分享，若未来语音输入技术能达到用户完全信任的水平，其取代键盘成为人机交互新范式（语音操作系统）将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。