声明:本文源自微信公众号白鲸出海,作者张凯然,经站长之家授权转载发布。7月16日,语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金,领投方为知名孵化器YC。而仅数日前,6月25日,另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前,我们持续关注AI语音技术领域,但获得融资的多数专注于语音合成技术,即“输出”端。例如,行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资,估值突破30亿美元。然而,近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业,正逐渐赢得资本市场的青睐。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图

语音输入技术并非新生事物,早在2012年就已出现,为何近期仍能获得资本关注?Willow Voice和Wispr Flow(以下简称Willow和Flow)均专注于自动语音识别(ASR)技术,其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮,即可将口语实时转化为文字。表面上看,这项技术已融入日常生活,微信早在2019年便在iOS端推出“语音转文字”功能,苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外,ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图1

根据Voice Writer.io的测试数据(发布时间:2025年2月),在格式化文本输出场景下,除Google Cloud的转录功能表现稍弱外,其他产品差异不大。所有产品的错词率平均提升了10%,而非格式化文本场景下的错词率则普遍低于10%,与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出,尽管AI在非格式化文本转录时的错误率已降至极低水平,但仍有改进空间。即使错误率降至1%以下,仍意味着每几句话就可能出现错词,用户难以完全信任AI的输出结果。由于口语与书面语存在差异,即使模型能完整转录用户语音,输出文本仍需人工简化和修正,无法直接用于正式场合。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图2

基于这一理念,Flow与传统的语音转文字产品形成差异化竞争,致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节,确保用户获得可直接使用的文本。这一处理过程分为三个层面:一是格式化文字输出,包括正确断句、去除语气词等;二是上下文理解,如自动纠正口误、识别情绪等;三是语境识别,即根据不同输入场景(如DM、邮件、笔记)输出不同风格的文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图3

初步对比测试显示,OpenAI Whisper仅实现第一层功能,Flow和Willow达到第二层,而第三层能力尚未完全实现。从产品逻辑来看,Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程,因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中,ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow,并透露几乎每日使用。从推荐内容看,他们主要面向需要高效处理大量信息的VC/创业者/高管群体,这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图4

在通过VC/创业者群体实现初期裂变后,Flow开始通过Product Hunt触达更多目标用户,包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似,这部分用户同样面临大量文字处理需求,且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点,我们选取To do List、邮件回复、会前备忘录三个场景,对Willow、Flow及ChatGPT听写功能(Whisper模型驱动)进行对比测试。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图5

测试场景1:To do List场景
场景描述:某团队负责人在通勤路上需要梳理当日重要事项,并在笔记App中记录。口语化内容:“嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。”输出要求:关键信息准确,代办事项自动分点呈现。测试结果显示,三款产品均未遗漏核心信息,Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段,而OpenAI Whisper表现最差,未分段且添加冗余文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图6

测试场景2:含专业术语的备忘录场景
场景描述:某券商分析师在财报点评会前需总结财报亮点,形成文字备忘录并分享给团队成员。口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”输出要求:关键信息准确,专业术语正确,语气偏正式。测试发现,三款产品在“摊薄风险”等术语上均出现错误,Willow和Whisper也出现较多其他错误。值得注意的是,Flow在用户手动添加术语后仍无法正确输出,表明专业场景下仍存在局限。此外,三款产品均未修正“环比是负的”等口语化表达,也未进行逻辑梳理。

测试场景3:回复客户邮件场景
场景描述:某用户在机场需回复客户咨询邮件并提供建议。口语化内容:“您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。”输出要求:自动分段、呈现邮件格式、文风正式。测试显示,Flow和Willow均按邮件格式处理“你好”等元素,Flow在分段方面表现更优。三款产品均未有效转化口语化表达,仅Flow将“到时候”改为“届时”。整体而言,邮件文风仍偏口语化,需人工修改。

体验下来,Flow和Willow的输出质量尚可,但距离“零编辑”目标仍有一定差距。尽管如此,根据媒体报道,Flow的用户粘性和付费率表现突出,月环比用户增长超50%,6个月活跃用户留存率达80%,付费率高达19%,2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标,但Flow的高用户粘性和付费率表明,尽管当前语音输入技术仍需人工干预,但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示,Flow在非正式输入场景中表现优异,如与Cursor进行自然语言交互(Vibe Coding)等场景。该场景下,用户只需按Mac键盘特定按键即可实现语音交互,Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出,通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”,但随着大模型能力的持续提升与数据积累,未来有望显著改善。根据Flow创始人分享,若未来语音输入技术能达到用户完全信任的水平,其取代键盘成为人机交互新范式(语音操作系统)将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。

最新快讯

2025年08月20日

17:26
微新创想8月20日最新消息,知名数码博主数码闲聊站通过隐晦暗示,今年9月底智能手机市场或将迎来重磅洗牌,预计仅小米16系列有望率先登场,而搭载骁龙8 Elite 2和天玑9500平台的旗舰新品,则大概率要等到10月才能与消费者见面。据行业观察,新一轮高端机型的激烈竞争预计将在国庆假期后全面爆发。 据多方爆料,小米将同期推出标准版小米16与Pro版两款机型,整...
17:26
19日深夜,日本多地民众被夜空中突如其来的“神秘光球”震撼,这一罕见天象不仅被地面观测者肉眼捕捉,更被包括关西机场安保摄像头在内的多套设备清晰记录,迅速引发全网热议。从流传的视频片段中可见,原本宁静的夜幕突然被一个炽亮的蓝白色光球划破,其亮度之高仿佛瞬间点亮了整个天空,场面壮观至极。随着光球逐渐靠近地面,其颜色开始发生奇妙变化,由最初的蓝白色渐变为白黄色,而...
17:26
微新创想8月20日即时报道 8月18日凌晨,浙江金华上演了一幕令人啼笑皆非的街头奇景。据现场目击者称,一名男子酒后竟做出惊人之举——他不仅没有选择常规的回家方式,反而扛起电动车,步履蹒跚地徒步返回住所。这一行为不仅令人费解,更充满了安全隐患。 次日清晨,该男子再次来到同一家烧烤店,声称要寻找昨晚遗落的电动车钥匙。烧烤店老板在查看店内监控时,无意中捕捉到了这一...
17:26
微新创想8月20日重磅报道,特斯拉正式官宣,备受期待的全新加长版Model Y L车型现已全面到店。这款备受瞩目的新车于昨日正式开售,国产版售价定为33.9万元,其最大亮点在于尺寸的显著加长,从而实现了3排6座的豪华布局,完美契合家庭用户的多元化需求。新车整体设计灵感源自焕新版,不仅采用了贯穿式LED日行灯与分体式灯组,更将贯穿式尾灯升级为漫反射样式,视觉效...
17:26
2024年,上海浦东新区集成电路产业规模突破2947亿元大关,这一数字占据了全国该产业总规模的五分之一,彰显了其作为全国集成电路产业核心区的强大实力。作为上海建设具有世界影响力的社会主义现代化国际城区的关键引擎,浦东新区正全力推动集成电路、生物医药和人工智能三大先导产业集群式发展,着力打造全球创新策源地和新兴产业新高地。 2024年浦东新区地区生产总值高达1...
17:26
微新创想8月20日最新消息,知名数码博主数码闲聊站通过隐晦方式透露,备受期待的小米16旗舰机型或将率先搭载澎湃OS 3正式版,开启全新系统体验。然而令人意外的是,部分老机型将获得优先权,抢先体验澎湃OS 3内测版,预示着新系统即将全面开启Beta内测阶段。 据多方爆料,澎湃OS 3堪称小米操作系统发展史上的重要里程碑。新版系统不仅将全面升级至安卓16底层,更...
17:26
微新创想8月20日快讯 湖北武汉一处热门动物主题公园近日陷入舆论漩涡。有网友在社交媒体上发布视频,指控zoolungzoolung动物主题公园(东湖店)存在虐待动物的行为。视频画面显示,一只豹猫的食盆周围聚集了大量疑似蟑螂的昆虫,引发公众对动物福利的担忧。 面对舆论压力,公园管理方迅速作出回应。工作人员解释称,这些外形与蟑螂相似的昆虫实为园内蜥蜴专用的饲料...
17:26
8月20日,AI Agent平台Manus首席科学家季逸超正式宣布了一项令人瞩目的里程碑——公司收入运行率(RRR)已成功突破9000万美元大关。这一关键指标不仅反映了Manus在市场中的强劲表现,更被视为预测年度收入的重要参考依据。据透露,该平台自今年5月启动海外注册服务以来,凭借其创新性的产品布局和精准的市场策略,迅速吸引了大量用户关注。 在商业模式方面...
17:26
2025年8月20日,一汽解放股票市场表现异常抢眼,盘中强势涨停,涨幅高达10.04%,成交额突破2亿元大关。这一罕见的市场波动充分展现了投资者对该公司股票的强烈关注和积极追捧。值得注意的是,此次涨停背后并未出现明确的利好消息或政策支持,市场分析认为这可能与投资者对行业前景的乐观预期、公司潜在价值被重新评估,或是短期资金炒作等多重因素交织有关。尽管具体推动股...
17:25
2025年8月20日,备受市场关注的万通发展正式官宣,将于当日15:00至16:30通过价值在线平台举办一场重要的投资者说明会。本次会议的核心议题将聚焦于公司近期备受瞩目的重大资产收购——北京数渡信息科技有限公司。作为业内领先的企业发展平台,万通发展此次主动搭建沟通桥梁,旨在向广大投资者全面、深入地解读此次收购的战略背景、核心目的以及长远发展规划。 此次投资...
17:25
2025年上半年,三德科技凭借其领先的无人化智能装备解决方案,在火电、煤炭、钢铁等关键行业的数智化改造升级浪潮中表现亮眼。由于这些行业对智能化升级的需求持续旺盛,公司订单交付节奏明显加快,项目验收数量较去年同期实现了显著增长。这一系列积极因素共同推动了该业务线的营收实现大幅增长,展现出强劲的市场竞争力。 展望未来,公司预计下半年将迎来项目验收的高峰期。基于上...
17:25
人工智能正经历一场不为人知的变革浪潮。当我们还在惊叹ChatGPT逐字递进式应答的神奇时,一种全新的AI思维范式正在悄然兴起——扩散大语言模型(dLLM)如同一位深思熟虑的智者,不再急于给出结论,而是在多维度时间轴上反复推演,最终呈现更为精准的答案。这种革命性的模型彻底颠覆了传统AI逐字生成的局限,它采用迭代去噪的生成策略,宛如画家在画布上精益求精,每一次迭...