声明:本文源自微信公众号白鲸出海,作者张凯然,经站长之家授权转载发布。7月16日,语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金,领投方为知名孵化器YC。而仅数日前,6月25日,另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前,我们持续关注AI语音技术领域,但获得融资的多数专注于语音合成技术,即“输出”端。例如,行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资,估值突破30亿美元。然而,近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业,正逐渐赢得资本市场的青睐。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图

语音输入技术并非新生事物,早在2012年就已出现,为何近期仍能获得资本关注?Willow Voice和Wispr Flow(以下简称Willow和Flow)均专注于自动语音识别(ASR)技术,其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮,即可将口语实时转化为文字。表面上看,这项技术已融入日常生活,微信早在2019年便在iOS端推出“语音转文字”功能,苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外,ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图1

根据Voice Writer.io的测试数据(发布时间:2025年2月),在格式化文本输出场景下,除Google Cloud的转录功能表现稍弱外,其他产品差异不大。所有产品的错词率平均提升了10%,而非格式化文本场景下的错词率则普遍低于10%,与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出,尽管AI在非格式化文本转录时的错误率已降至极低水平,但仍有改进空间。即使错误率降至1%以下,仍意味着每几句话就可能出现错词,用户难以完全信任AI的输出结果。由于口语与书面语存在差异,即使模型能完整转录用户语音,输出文本仍需人工简化和修正,无法直接用于正式场合。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图2

基于这一理念,Flow与传统的语音转文字产品形成差异化竞争,致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节,确保用户获得可直接使用的文本。这一处理过程分为三个层面:一是格式化文字输出,包括正确断句、去除语气词等;二是上下文理解,如自动纠正口误、识别情绪等;三是语境识别,即根据不同输入场景(如DM、邮件、笔记)输出不同风格的文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图3

初步对比测试显示,OpenAI Whisper仅实现第一层功能,Flow和Willow达到第二层,而第三层能力尚未完全实现。从产品逻辑来看,Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程,因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中,ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow,并透露几乎每日使用。从推荐内容看,他们主要面向需要高效处理大量信息的VC/创业者/高管群体,这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图4

在通过VC/创业者群体实现初期裂变后,Flow开始通过Product Hunt触达更多目标用户,包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似,这部分用户同样面临大量文字处理需求,且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点,我们选取To do List、邮件回复、会前备忘录三个场景,对Willow、Flow及ChatGPT听写功能(Whisper模型驱动)进行对比测试。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图5

测试场景1:To do List场景
场景描述:某团队负责人在通勤路上需要梳理当日重要事项,并在笔记App中记录。口语化内容:“嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。”输出要求:关键信息准确,代办事项自动分点呈现。测试结果显示,三款产品均未遗漏核心信息,Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段,而OpenAI Whisper表现最差,未分段且添加冗余文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图6

测试场景2:含专业术语的备忘录场景
场景描述:某券商分析师在财报点评会前需总结财报亮点,形成文字备忘录并分享给团队成员。口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”输出要求:关键信息准确,专业术语正确,语气偏正式。测试发现,三款产品在“摊薄风险”等术语上均出现错误,Willow和Whisper也出现较多其他错误。值得注意的是,Flow在用户手动添加术语后仍无法正确输出,表明专业场景下仍存在局限。此外,三款产品均未修正“环比是负的”等口语化表达,也未进行逻辑梳理。

测试场景3:回复客户邮件场景
场景描述:某用户在机场需回复客户咨询邮件并提供建议。口语化内容:“您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。”输出要求:自动分段、呈现邮件格式、文风正式。测试显示,Flow和Willow均按邮件格式处理“你好”等元素,Flow在分段方面表现更优。三款产品均未有效转化口语化表达,仅Flow将“到时候”改为“届时”。整体而言,邮件文风仍偏口语化,需人工修改。

体验下来,Flow和Willow的输出质量尚可,但距离“零编辑”目标仍有一定差距。尽管如此,根据媒体报道,Flow的用户粘性和付费率表现突出,月环比用户增长超50%,6个月活跃用户留存率达80%,付费率高达19%,2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标,但Flow的高用户粘性和付费率表明,尽管当前语音输入技术仍需人工干预,但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示,Flow在非正式输入场景中表现优异,如与Cursor进行自然语言交互(Vibe Coding)等场景。该场景下,用户只需按Mac键盘特定按键即可实现语音交互,Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出,通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”,但随着大模型能力的持续提升与数据积累,未来有望显著改善。根据Flow创始人分享,若未来语音输入技术能达到用户完全信任的水平,其取代键盘成为人机交互新范式(语音操作系统)将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。

最新快讯

2026年02月15日

12:29
微新创想:2月15日,美国太空探索技术公司(SpaceX)使用猎鹰9号火箭,从加利福尼亚州范登堡太空军基地成功发射24颗星链(Starlink)卫星。此次任务旨在扩充低轨互联网星座网络覆盖能力,为更多地区提供高速互联网服务。随着卫星数量的不断增加,SpaceX正在逐步实现其全球宽带覆盖的愿景。 火箭一子级按计划回收,实现重复使用。这一举措不仅降低了发射成本,...
12:29
微新创想:截至2026年2月15日,2026年春节档总票房已突破3亿元大关。这一成绩标志着中国电影市场在春节这一重要档期的强劲复苏。春节档期自2月1日(除夕)开始,持续至2月7日(正月初七),覆盖全国范围内的各大院线,成为全年观影热潮的起点。 微新创想:在这一档期内,多部影片吸引了大量观众的关注与支持。其中,《飞驰人生3》《惊蛰无声》《镖人:风起大漠》三部影...
12:29
微新创想:2026年1月,鸿蒙智行尊界S800大型豪华轿车销量达2625台,位居同级别车型销量榜首。其销量更是超越了宝马7系与迈巴赫S级的总和,展现出强劲的市场竞争力。 深圳、广州、上海成为尊界S800的三大畅销城市,这三座城市不仅是中国经济发展的核心区域,也是高端汽车消费的重要市场。尊界S800在这些城市的热销,进一步验证了其在豪华轿车市场的受欢迎程度。 ...
12:29
微新创想:2026年2月14日 索尼与亚马逊联合发布科幻犯罪剧《暗影蜘蛛侠》首支预告 宣布该剧将于5月25日登陆MGM+频道 5月27日全集上线Prime Video 该剧由尼古拉斯·凯奇主演 饰演1930年代陷入中年危机的私家侦探本·赖利 即独立宇宙中的“暗影蜘蛛侠” 这一角色设定为故事增添了独特的魅力与深度 剧集由《蜘蛛侠:平行宇宙》原班团队打造 融合了...
12:29
微新创想:2026年2月,真我手机官方在社区推出了realme UI新春升级,此次更新覆盖了包括GT8 Pro、Neo7 Turbo、GT Neo6在内的13款机型。更新时间恰逢春节前夕,为用户带来了丰富的节日专属功能。 新增的春节限定水印让用户在分享照片时能够增添节日氛围。除夕倒计时卡片则为用户提供了直观的节日倒计时体验,让等待新年到来的过程更加有趣。跨年...
12:29
微新创想:2026年2月15日 拼多多启动“春节不打烊”活动 拼多多在2026年2月15日正式启动“春节不打烊”活动 该活动覆盖全国范围 旨在保障消费者在春节期间的购物需求 平台联合商家加大水果生鲜 粮油米面等年货的补贴力度 同时提升物流保障能力 确保消费者节日期间能够正常收货 拼多多还同步推出多项食品安全治理举措 包括加强经营资质审查 严格管控食品广告与直...
12:27
微新创想:去年iPhone 16e虽然凭借价格优势吸引了一定关注,但因砍掉MagSafe等核心功能而引发不少争议。如今新一代iPhone 17e的爆料浮出水面,相较于前代虽未进行大幅调整,但在处理器、连接能力及MagSafe等关键功能上的补强,将显著提升整体完成度。 外观设计方面,Jon Prosser称iPhone 17e可能采用较新设计语言,甚至将刘海屏...
12:26
微新创想:Intel即将推出的Nova Lake-S桌面处理器对主板供电提出了极高要求 据Jaykihn最新爆料,Intel即将推出的Nova Lake-S桌面处理器在性能释放方面对主板供电系统提出了前所未有的挑战。这款处理器的旗舰版本拥有52个核心,仅能在顶级900系列主板上实现全部性能输出,而中低端型号则可能面临功耗和性能的双重限制。 Nova Lake...
12:26
微新创想:2月14日,千问突然宣布免单再加3天,从今天下午3点开始,一直到大年初一,每位用户都可以再领取10张25元的超级免单卡。与前几天的第一波免单卡相比,超级免单卡的使用范围更加广泛,不仅可用于点餐饮、囤年货,还可以在千问上购买电影票、门票、预订酒店和机票。未来,千问还将陆续接入AI打车、充手机话费、高德扫街榜团购、淘宝购物等新功能,所有这些服务均可使用...
12:26
微新创想 Intel正式发布了32.0.101.8509WHQL版本显卡驱动 该版本最大的亮点就是将多帧生成功能扩展到了更多锐炫独显及核显 根据更新说明 本次更新将多帧生成功能扩展至以下显卡 Intel 锐炫B系列独立显卡 Intel 锐炫A系列独立显卡 搭载Intel锐炫核显的酷睿Ultra 2系列处理器 Lunar Lake and Arrow La...
12:26
微新创想:2月14日,一则关于谷爱凌将入职硅谷知名风投机构的传闻在网络上迅速传播,引发了广泛关注。消息称,Benchmark风投机构的传奇合伙人Bill Gurley证实,谷爱凌将加入Benchmark担任资深投资经理。对此,正在意大利参加米兰冬奥会的谷爱凌在相关帖子下留言辟谣,明确表示这不是真的。 该传闻最初由一名自称旧金山创业公司企业家的X平台用户发布。...
12:26
微新创想:一年了 美国还在追着Deepseek抹黑 可中国最新的Seedance都2.0了 据报道 中国视频生成模型Seedance 2.0吸引全球目光时 当地时间2月12日 美国人工智能公司OpenAI向美国众议院提交了一份备忘录 再次抹黑中国人工智能大模型DeepSeek 称其抄袭了美国的大模型 自2025年春节以来 美国政府对DeepSeek的打压抹黑...