声明:本文源自微信公众号白鲸出海,作者张凯然,经站长之家授权转载发布。7月16日,语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金,领投方为知名孵化器YC。而仅数日前,6月25日,另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前,我们持续关注AI语音技术领域,但获得融资的多数专注于语音合成技术,即“输出”端。例如,行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资,估值突破30亿美元。然而,近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业,正逐渐赢得资本市场的青睐。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图

语音输入技术并非新生事物,早在2012年就已出现,为何近期仍能获得资本关注?Willow Voice和Wispr Flow(以下简称Willow和Flow)均专注于自动语音识别(ASR)技术,其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮,即可将口语实时转化为文字。表面上看,这项技术已融入日常生活,微信早在2019年便在iOS端推出“语音转文字”功能,苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外,ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图1

根据Voice Writer.io的测试数据(发布时间:2025年2月),在格式化文本输出场景下,除Google Cloud的转录功能表现稍弱外,其他产品差异不大。所有产品的错词率平均提升了10%,而非格式化文本场景下的错词率则普遍低于10%,与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出,尽管AI在非格式化文本转录时的错误率已降至极低水平,但仍有改进空间。即使错误率降至1%以下,仍意味着每几句话就可能出现错词,用户难以完全信任AI的输出结果。由于口语与书面语存在差异,即使模型能完整转录用户语音,输出文本仍需人工简化和修正,无法直接用于正式场合。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图2

基于这一理念,Flow与传统的语音转文字产品形成差异化竞争,致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节,确保用户获得可直接使用的文本。这一处理过程分为三个层面:一是格式化文字输出,包括正确断句、去除语气词等;二是上下文理解,如自动纠正口误、识别情绪等;三是语境识别,即根据不同输入场景(如DM、邮件、笔记)输出不同风格的文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图3

初步对比测试显示,OpenAI Whisper仅实现第一层功能,Flow和Willow达到第二层,而第三层能力尚未完全实现。从产品逻辑来看,Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程,因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中,ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow,并透露几乎每日使用。从推荐内容看,他们主要面向需要高效处理大量信息的VC/创业者/高管群体,这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图4

在通过VC/创业者群体实现初期裂变后,Flow开始通过Product Hunt触达更多目标用户,包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似,这部分用户同样面临大量文字处理需求,且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点,我们选取To do List、邮件回复、会前备忘录三个场景,对Willow、Flow及ChatGPT听写功能(Whisper模型驱动)进行对比测试。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图5

测试场景1:To do List场景
场景描述:某团队负责人在通勤路上需要梳理当日重要事项,并在笔记App中记录。口语化内容:“嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。”输出要求:关键信息准确,代办事项自动分点呈现。测试结果显示,三款产品均未遗漏核心信息,Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段,而OpenAI Whisper表现最差,未分段且添加冗余文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图6

测试场景2:含专业术语的备忘录场景
场景描述:某券商分析师在财报点评会前需总结财报亮点,形成文字备忘录并分享给团队成员。口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”输出要求:关键信息准确,专业术语正确,语气偏正式。测试发现,三款产品在“摊薄风险”等术语上均出现错误,Willow和Whisper也出现较多其他错误。值得注意的是,Flow在用户手动添加术语后仍无法正确输出,表明专业场景下仍存在局限。此外,三款产品均未修正“环比是负的”等口语化表达,也未进行逻辑梳理。

测试场景3:回复客户邮件场景
场景描述:某用户在机场需回复客户咨询邮件并提供建议。口语化内容:“您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。”输出要求:自动分段、呈现邮件格式、文风正式。测试显示,Flow和Willow均按邮件格式处理“你好”等元素,Flow在分段方面表现更优。三款产品均未有效转化口语化表达,仅Flow将“到时候”改为“届时”。整体而言,邮件文风仍偏口语化,需人工修改。

体验下来,Flow和Willow的输出质量尚可,但距离“零编辑”目标仍有一定差距。尽管如此,根据媒体报道,Flow的用户粘性和付费率表现突出,月环比用户增长超50%,6个月活跃用户留存率达80%,付费率高达19%,2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标,但Flow的高用户粘性和付费率表明,尽管当前语音输入技术仍需人工干预,但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示,Flow在非正式输入场景中表现优异,如与Cursor进行自然语言交互(Vibe Coding)等场景。该场景下,用户只需按Mac键盘特定按键即可实现语音交互,Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出,通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”,但随着大模型能力的持续提升与数据积累,未来有望显著改善。根据Flow创始人分享,若未来语音输入技术能达到用户完全信任的水平,其取代键盘成为人机交互新范式(语音操作系统)将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。

最新快讯

2025年11月19日

07:16
2025年11月19日,微软正式向Windows 11的Canary测试频道用户发布了备受期待的Build 28000.1199(KB5068860)预览版更新。此次更新不仅包含了一系列常规性的改进措施,更着重于系统底层性能的优化与稳定性的显著提升,致力于为用户带来更加流畅、可靠的操作系统体验。作为开发周期的早期阶段,该版本中部分功能可能尚未成熟,最终能否纳...
07:16
2025年11月19日,微软在Ignite全球技术峰会上一举宣布对Windows驱动程序构建与签名流程进行重大改革,这一举措标志着微软在系统安全领域迈出了关键性步伐。新规的核心目标在于全面提升Windows系统的安全性、可靠性与稳定性,有效减少因驱动程序问题引发的系统崩溃或异常行为,为用户创造更流畅、更稳定的计算体验。 新制定的驱动程序认证标准将更加严格,要...
06:43
2025年11月18日,谷歌正式宣布一项雄心勃勃的基建计划,将在澳大利亚圣诞岛建设一座全新的数据中心,并同步部署连接马尔代夫和阿曼的海底光缆系统。这座位于印尼以南约220英里的圣诞岛,将成为谷歌在南亚及印度洋地区数字基建战略的关键节点。该项目于周一正式启动,旨在全面提升该区域的网络基础设施水平,为南亚及印度洋沿岸国家带来更优质的数字服务体验。 据悉,这座新建...
05:23
2025年11月19日,苹果公司向全球Vision Pro用户正式推送了备受期待的visionOS 26.2开发者预览版Beta 3,版本号为23N5296b。这一更新紧随上一测试版发布仅6天便迅速到来,充分展现了苹果在软件迭代方面的卓越效率。值得注意的是,由于服务器缓存机制的影响,部分地区的用户可能需要等待最长半小时才能成功下载该版本。尽管苹果官方尚未公布...
04:04
2025年11月19日,全球领先的生物制药公司罗氏制药传来振奋人心的消息,其自主研发的早期乳腺癌治疗药物giredestrant在关键性III期临床研究中取得了突破性进展。该研究聚焦于激素受体阳性且HER2阴性的早期乳腺癌女性患者群体,这一庞大且亟待有效治疗的市场细分人群。研究最终数据显示,接受giredestrant治疗的患者群体展现出显著延长的无病生存期...
04:04
截至11月9日,Meta旗下基于人工智能的社交应用Vibes成功吸引了200万日活跃用户,这一里程碑式的增长充分展现了Meta在人工智能领域的持续扩张能力和强大的用户吸引力。Vibes作为一款创新的AI社交互动工具,自上线以来凭借其精准的个性化推荐系统和令人沉浸的互动体验,迅速赢得了大量用户的青睐。这一数据不仅印证了Meta在AI产品研发方面的成功,更标志着...
04:04
2025年11月19日,微软在Ignite大会上正式宣布SQL Server 2025、Fabric数据库和Azure DocumentDB三大产品成功迈入稳定发布阶段,标志着微软在数据库技术领域的又一重大突破。此次发布不仅提升了产品的成熟度,更为企业数字化转型提供了更强大的技术支撑。 SQL Server 2025此次带来了多项创新功能,其中最引人注目的是...
03:27
2025年11月19日,微软在Ignite全球技术峰会上一举揭开了Windows 11向"智能体操作系统"全面升级的宏伟蓝图。这一重大战略转型标志着微软将人工智能技术深度融入操作系统内核,为用户带来前所未有的智能化体验。新系统将引入创新的"智能体工作区"概念,通过容器化隔离技术构建安全可靠的环境,在保障用户数据隐私的同时赋予用户完全的控制权。这一设计理念既兼...
03:27
2025年11月19日,微软在Ignite大会上一举推出两项革命性产品——Windows 365智能体版与AI增强型云电脑,双双进入公开预览阶段,标志着云计算与人工智能技术迈入全新纪元。这一创新服务通过将AI智能体部署在高度安全的云电脑环境中,为企业用户提供了前所未有的AI工作流安全性与合规性保障,有效解决了传统本地部署的诸多痛点。 开发者群体将迎来福音,全...
03:27
2025年11月19日,微软在Ignite大会上重磅发布了Teams平台的系列AI升级,为团队协作与项目管理注入了革命性动力。此次升级的核心亮点在于引入了"模型上下文协议"(MCP)技术,使得Teams频道能够无缝集成Jira、Asana等主流第三方协作工具,彻底打破了跨平台任务自动化的壁垒。这一创新意味着用户现在可以在Teams工作流中直接查询项目风险、追...
03:27
2025年11月19日,微软在Ignite大会上正式发布了Edge for Business浏览器的重大更新,为企业和个人用户带来了革命性的工作体验。此次更新的核心亮点是进入私测阶段的“Copilot模式”,该模式集成了智能体工作流、个性化标签页和每日简报三大功能,将AI技术深度融入日常办公场景。 在AI功能方面,微软预览了多标签推理、自然语言历史记录和Yo...
03:27
2025年11月19日,微软在Ignite大会上一举引爆全球关注,正式宣布Azure Copilot迎来重大突破——全新智能体功能正式进入私密预览阶段。这一里程碑式发布标志着Azure Copilot在自动化云管理领域迈出了关键性步伐,为用户带来前所未有的智能化体验。 此次推出的智能体功能包含六大核心模块:迁移智能体能够自动化跨云资源迁移流程;部署智能体可一...