声明:本文源自微信公众号白鲸出海,作者张凯然,经站长之家授权转载发布。7月16日,语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金,领投方为知名孵化器YC。而仅数日前,6月25日,另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前,我们持续关注AI语音技术领域,但获得融资的多数专注于语音合成技术,即“输出”端。例如,行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资,估值突破30亿美元。然而,近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业,正逐渐赢得资本市场的青睐。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图

语音输入技术并非新生事物,早在2012年就已出现,为何近期仍能获得资本关注?Willow Voice和Wispr Flow(以下简称Willow和Flow)均专注于自动语音识别(ASR)技术,其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮,即可将口语实时转化为文字。表面上看,这项技术已融入日常生活,微信早在2019年便在iOS端推出“语音转文字”功能,苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外,ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图1

根据Voice Writer.io的测试数据(发布时间:2025年2月),在格式化文本输出场景下,除Google Cloud的转录功能表现稍弱外,其他产品差异不大。所有产品的错词率平均提升了10%,而非格式化文本场景下的错词率则普遍低于10%,与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出,尽管AI在非格式化文本转录时的错误率已降至极低水平,但仍有改进空间。即使错误率降至1%以下,仍意味着每几句话就可能出现错词,用户难以完全信任AI的输出结果。由于口语与书面语存在差异,即使模型能完整转录用户语音,输出文本仍需人工简化和修正,无法直接用于正式场合。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图2

基于这一理念,Flow与传统的语音转文字产品形成差异化竞争,致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节,确保用户获得可直接使用的文本。这一处理过程分为三个层面:一是格式化文字输出,包括正确断句、去除语气词等;二是上下文理解,如自动纠正口误、识别情绪等;三是语境识别,即根据不同输入场景(如DM、邮件、笔记)输出不同风格的文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图3

初步对比测试显示,OpenAI Whisper仅实现第一层功能,Flow和Willow达到第二层,而第三层能力尚未完全实现。从产品逻辑来看,Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程,因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中,ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow,并透露几乎每日使用。从推荐内容看,他们主要面向需要高效处理大量信息的VC/创业者/高管群体,这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图4

在通过VC/创业者群体实现初期裂变后,Flow开始通过Product Hunt触达更多目标用户,包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似,这部分用户同样面临大量文字处理需求,且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点,我们选取To do List、邮件回复、会前备忘录三个场景,对Willow、Flow及ChatGPT听写功能(Whisper模型驱动)进行对比测试。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图5

测试场景1:To do List场景
场景描述:某团队负责人在通勤路上需要梳理当日重要事项,并在笔记App中记录。口语化内容:“嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。”输出要求:关键信息准确,代办事项自动分点呈现。测试结果显示,三款产品均未遗漏核心信息,Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段,而OpenAI Whisper表现最差,未分段且添加冗余文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图6

测试场景2:含专业术语的备忘录场景
场景描述:某券商分析师在财报点评会前需总结财报亮点,形成文字备忘录并分享给团队成员。口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”输出要求:关键信息准确,专业术语正确,语气偏正式。测试发现,三款产品在“摊薄风险”等术语上均出现错误,Willow和Whisper也出现较多其他错误。值得注意的是,Flow在用户手动添加术语后仍无法正确输出,表明专业场景下仍存在局限。此外,三款产品均未修正“环比是负的”等口语化表达,也未进行逻辑梳理。

测试场景3:回复客户邮件场景
场景描述:某用户在机场需回复客户咨询邮件并提供建议。口语化内容:“您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。”输出要求:自动分段、呈现邮件格式、文风正式。测试显示,Flow和Willow均按邮件格式处理“你好”等元素,Flow在分段方面表现更优。三款产品均未有效转化口语化表达,仅Flow将“到时候”改为“届时”。整体而言,邮件文风仍偏口语化,需人工修改。

体验下来,Flow和Willow的输出质量尚可,但距离“零编辑”目标仍有一定差距。尽管如此,根据媒体报道,Flow的用户粘性和付费率表现突出,月环比用户增长超50%,6个月活跃用户留存率达80%,付费率高达19%,2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标,但Flow的高用户粘性和付费率表明,尽管当前语音输入技术仍需人工干预,但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示,Flow在非正式输入场景中表现优异,如与Cursor进行自然语言交互(Vibe Coding)等场景。该场景下,用户只需按Mac键盘特定按键即可实现语音交互,Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出,通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”,但随着大模型能力的持续提升与数据积累,未来有望显著改善。根据Flow创始人分享,若未来语音输入技术能达到用户完全信任的水平,其取代键盘成为人机交互新范式(语音操作系统)将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。

最新快讯

2026年02月15日

09:30
微新创想:2026年2月15日(农历正月初一)全国电影市场迎来春节档首日。根据猫眼专业版最新数据显示,当日预测票房达到11.65亿元,显示出观众高涨的观影热情。这一成绩较去年同期有所提升,表明春节假期对电影消费的拉动作用依然显著。 张驰导演的《飞驰人生3》凭借强劲的预售表现,预计将在当日票房排行榜上占据首位。该片作为春节档的重要作品之一,不仅延续了前作的热度...
08:58
微新创想:2026年2月14日,北京无限宇航科技有限公司在位于北京的试验基地成功完成了100N双组元液体火箭发动机的高空模拟试车 此次试车的发动机是专为航天器姿态控制与轨道修正设计的小型动力装置。作为批产交付后的首次高空环境考核,此次试验具有重要的里程碑意义 试验过程中,共进行了17次点火,涵盖了稳态、脉冲、寿命以及拉偏等全部关键测试项目。其中脉冲点火次数累...
08:26
微新创想:2月14日16时15分许 湘潭钢铁集团有限公司厂区四号高炉区域附近煤气管道在处置异常停电过程中发生起火 事故发生在湖南湘潭市 涉事单位为湘潭钢铁集团有限公司 当地消防 应急 公安 生态环境等部门迅速响应 并于次日2时40分成功扑灭明火 目前事故未造成人员伤亡 初步排除了爆炸及有毒气体大量泄漏的可能 环境监测数据也显示正常 事故的具体原因仍在进一步调...
08:26
微新创想:2026年2月15日大族激光在机构调研中透露,其3D打印业务重点布局消费电子领域,专注于钛合金结构件的制造。公司表示,当前3D打印技术的成熟度正在不断提升,已逐步建立起高效、可控且具备成本优势的量产体系。这一进展为大族激光在3D打印市场中的竞争力奠定了坚实基础。 微新创想:大族激光的3D打印业务依托于公司在激光加工技术方面的长期积累,能够快速响应并...
08:26
微新创想:2026年2月14日,Reddit用户u/seklay报告其搭载AMD Ryzen 7 9800X3D处理器与华硕TUF Gaming X870-Plus主板的PC突发故障 该用户描述其电脑在整夜轻负载运行后出现异常。在此期间,CPU使用率保持在10%以下,但系统突然卡死,无法正常响应。尝试强制重启后,电脑仍然无法通过自检,Q-LED指示灯显示DR...
07:45
微新创想:2月13日,杭州华电半山发电有限公司联合国家电网浙江省电力有限公司,在2号机组成功并网投运全国首套9F重型燃机柔性励磁系统。该系统采用先进的IGBT器件替代传统晶闸管,显著提升了系统的响应速度,达到毫秒级。同时,电压支撑能力也得到了大幅提升,达到原有水平的1.5倍。 这一技术突破标志着我国在柔性励磁领域迈出了重要一步,首次实现了从中、小型机组向大型...
07:45
微新创想:谷歌近日确认其AI聊天机器人Gemini正面临大规模的蒸馏攻击。这种攻击方式主要通过重复提问来探测模型的内部逻辑,攻击者的目标可能是克隆该模型或提升自身AI系统的性能。据谷歌披露,单场攻击中提示次数超过了10万次,攻击来源遍布全球,主要由具有商业动机的行为者发起,其中包括一些AI私企和研究机构。 谷歌表示,此类攻击属于知识产权的非法获取,严重威胁其...
07:15
微新创想:微软于2月12日向Windows Server预览体验成员推送了下一代LTSC预览版Build 29531。此次更新为用户提供了多种版本选择包括数据中心版、标准版以及Azure虚拟机评估版。该版本不仅支持桌面体验还兼容服务器核心安装模式满足不同场景下的使用需求。 微软将此版本设为新的预览基线要求用户进行全新安装不支持从Build 26525及更早版...
06:42
微新创想:2026年2月14日,苹果官方宣布Apple Music订阅价格保持不变。此举被广泛解读为对Spotify当日美区涨价的回应。 Spotify自2026年2月起将个人Premium订阅涨至12.99美元(约89.8元人民币),家庭套餐涨至21.99美元(约152.1元人民币)。相较于2023年的价格,此次调整使个人订阅价格上涨了3美元。 同期,Ap...
06:12
微新创想:2026年2月15日 三星向Galaxy Watch8 Classic推送L5050ZCU3AZB5等版本固件更新 本次升级优化设备性能并增强安全防护 更新后 用户可通过应用市场安装独立微信手表版App(v1.0.6) 支持消息接收 快捷回复 微信付款等功能 登录时需手机端确认授权 成功后手机微信顶部将提示“手表微信已登录” 该手表版微信自2022...
00:33
微新创想:2026年2月14日,《南京市网络预约出租汽车管理办法》正式施行。新规放宽车辆准入,将车龄要求由‘初次注册登记’调整为‘距初次注册登记不超过2年’,允许符合条件的二手车进入市场。这一调整为更多车辆提供了参与网约车运营的机会,有助于扩大行业覆盖面。 同时取消驾驶员须具本市户籍或居住证的限制。此举打破了以往对驾驶员身份的地域性约束,为更多有驾驶技能但户...

2026年02月14日

23:26
微新创想:2026年2月13日,日本确善能公司正式以福伦达品牌推出SEPTON 40mm f/2 Aspherical全画幅手动镜头。这款镜头不仅标志着确善能在镜头设计上的新突破,也展现了福伦达品牌在光学领域的深厚积累。 该镜头适配索尼E卡口与尼康Z卡口,为摄影师提供了更广泛的设备兼容性。其售价为93500日元,约合4226元人民币,定价合理,兼顾了品质与性...