声明:本文源自微信公众号白鲸出海,作者张凯然,经站长之家授权转载发布。7月16日,语音输入技术初创企业Willow Voice宣布成功募集420万美元天使轮资金,领投方为知名孵化器YC。而仅数日前,6月25日,另一家语音输入技术公司Wispr Flow也宣布完成3000万美元A轮融资。此前,我们持续关注AI语音技术领域,但获得融资的多数专注于语音合成技术,即“输出”端。例如,行业领军企业ElevenLabs在今年1月完成C轮2.5亿美元融资,估值突破30亿美元。然而,近期的两笔投资似乎传递出不同信号——反向聚焦“输入”端的语音技术初创企业,正逐渐赢得资本市场的青睐。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图

语音输入技术并非新生事物,早在2012年就已出现,为何近期仍能获得资本关注?Willow Voice和Wispr Flow(以下简称Willow和Flow)均专注于自动语音识别(ASR)技术,其产品功能类似“语音输入法”。用户只需在电脑或手机上按下特定按钮,即可将口语实时转化为文字。表面上看,这项技术已融入日常生活,微信早在2019年便在iOS端推出“语音转文字”功能,苹果公司更是在2012年iOS6中上线了最初版本的“语音听写”功能。此外,ElevenLabs、OpenAI等AI时代知名企业也纷纷布局语音转文字场景。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图1

根据Voice Writer.io的测试数据(发布时间:2025年2月),在格式化文本输出场景下,除Google Cloud的转录功能表现稍弱外,其他产品差异不大。所有产品的错词率平均提升了10%,而非格式化文本场景下的错词率则普遍低于10%,与未经专业训练的人类水平相当。Flow创始人Tanay Kothari在播客节目中指出,尽管AI在非格式化文本转录时的错误率已降至极低水平,但仍有改进空间。即使错误率降至1%以下,仍意味着每几句话就可能出现错词,用户难以完全信任AI的输出结果。由于口语与书面语存在差异,即使模型能完整转录用户语音,输出文本仍需人工简化和修正,无法直接用于正式场合。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图2

基于这一理念,Flow与传统的语音转文字产品形成差异化竞争,致力于实现“零编辑信息”。其技术架构在AI直接转录内容与输出内容之间增加了“文字处理”环节,确保用户获得可直接使用的文本。这一处理过程分为三个层面:一是格式化文字输出,包括正确断句、去除语气词等;二是上下文理解,如自动纠正口误、识别情绪等;三是语境识别,即根据不同输入场景(如DM、邮件、笔记)输出不同风格的文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图3

初步对比测试显示,OpenAI Whisper仅实现第一层功能,Flow和Willow达到第二层,而第三层能力尚未完全实现。从产品逻辑来看,Flow和Willow实质上完成了“口语输入”到“书面语输出”的完整流程,因此其使用场景更偏向办公环境。a16z的AI产品年度盘点中,ElevenLabs首席设计师Ammaar Reshi及创业者BenTossell均推荐Flow,并透露几乎每日使用。从推荐内容看,他们主要面向需要高效处理大量信息的VC/创业者/高管群体,这些用户往往拥有独立办公室或频繁在非办公场所处理工作。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图4

在通过VC/创业者群体实现初期裂变后,Flow开始通过Product Hunt触达更多目标用户,包括学生、代码开发者、创作者/作家、律师、咨询顾问等。与核心用户群体类似,这部分用户同样面临大量文字处理需求,且工作地点灵活多变。基于“工作状态下的文本输入”和“非办公室”两大特点,我们选取To do List、邮件回复、会前备忘录三个场景,对Willow、Flow及ChatGPT听写功能(Whisper模型驱动)进行对比测试。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图5

测试场景1:To do List场景
场景描述:某团队负责人在通勤路上需要梳理当日重要事项,并在笔记App中记录。口语化内容:“嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。”输出要求:关键信息准确,代办事项自动分点呈现。测试结果显示,三款产品均未遗漏核心信息,Flow和Willow通过原文中的“首先/第二/第三/最后”等标识词实现分段,而OpenAI Whisper表现最差,未分段且添加冗余文字。

AI语音输入融资热潮背后:资本押注“零编辑”语音技术插图6

测试场景2:含专业术语的备忘录场景
场景描述:某券商分析师在财报点评会前需总结财报亮点,形成文字备忘录并分享给团队成员。口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”输出要求:关键信息准确,专业术语正确,语气偏正式。测试发现,三款产品在“摊薄风险”等术语上均出现错误,Willow和Whisper也出现较多其他错误。值得注意的是,Flow在用户手动添加术语后仍无法正确输出,表明专业场景下仍存在局限。此外,三款产品均未修正“环比是负的”等口语化表达,也未进行逻辑梳理。

测试场景3:回复客户邮件场景
场景描述:某用户在机场需回复客户咨询邮件并提供建议。口语化内容:“您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。”输出要求:自动分段、呈现邮件格式、文风正式。测试显示,Flow和Willow均按邮件格式处理“你好”等元素,Flow在分段方面表现更优。三款产品均未有效转化口语化表达,仅Flow将“到时候”改为“届时”。整体而言,邮件文风仍偏口语化,需人工修改。

体验下来,Flow和Willow的输出质量尚可,但距离“零编辑”目标仍有一定差距。尽管如此,根据媒体报道,Flow的用户粘性和付费率表现突出,月环比用户增长超50%,6个月活跃用户留存率达80%,付费率高达19%,2024年7月至2025年7月间年收入已达380万美元。

虽然未能完全实现“零编辑”目标,但Flow的高用户粘性和付费率表明,尽管当前语音输入技术仍需人工干预,但已提供差异化价值。Reddit和Product Hunt上的用户反馈显示,Flow在非正式输入场景中表现优异,如与Cursor进行自然语言交互(Vibe Coding)等场景。该场景下,用户只需按Mac键盘特定按键即可实现语音交互,Flow在格式化与上下文理解层面明显优于OpenAI Whisper。

Flow的超高粘性和付费率反映出,通过语音输入减少人机交互摩擦、提升效率可能是一个可行方向。虽然Flow和Willow目前尚未在所有场景中实现“零编辑”,但随着大模型能力的持续提升与数据积累,未来有望显著改善。根据Flow创始人分享,若未来语音输入技术能达到用户完全信任的水平,其取代键盘成为人机交互新范式(语音操作系统)将指日可待。“现实提效+未来颠覆旧范式的可能性”或许才是VC们投资语音输入技术的真正原因。

最新快讯

2025年11月19日

09:01
近日,微软在 Ignite2025 年度盛会中震撼发布了一系列针对 Microsoft365Copilot 的重大升级,标志着办公协作领域迈入全新智能化纪元。此次更新以推动各类组织向"前沿企业"转型为核心目标,即借助人工智能技术实现运营效率的飞跃式提升。微软透露,目前已有高达90%的财富500强企业积极部署并应用这一AI工具,充分印证了其在企业级市场的广泛认...
09:01
Cloudflare官方正式发布声明,确认美东时间周二凌晨4时30分左右,其全球网络因遭遇突发性威胁流量,导致自动生成配置文件的条目数量远超预期上限,最终引发流量处理系统全面瘫痪。此次故障连锁反应导致全球范围内众多知名服务陷入中断,包括人工智能巨头ChatGPT、社交媒体平台X(原Twitter)、音乐流媒体Spotify、出行服务Uber以及美国联邦能源管...
09:01
谷歌母公司Alphabet正式推出Gemini3大型语言模型,凭借突破性的100万tokens上下文窗口刷新行业纪录,并首次实现文本、图像、视频与代码的原生多模态推理能力。这一里程碑式进展标志着AI交互进入全新维度,用户可跨越不同数据类型进行无缝智能交互。 官方数据显示,Gemini3Pro在GPQA Diamond研究生级测试中取得91.9%的卓越准确率,...
09:01
谷歌重磅官宣,旗下尖端大型语言模型Gemini 3即将揭开神秘面纱正式问世。为让开发者和研究人员提前感受新模型的魅力,Gemini 3 Pro Preview版本已在谷歌AI Studio平台率先上线。这个专为技术精英打造的开发平台,不仅为开发者、研究人员及学生提供了丰富的实验空间,更支持基于Gemini系列模型构建各类创新应用。 AI Studio平台赋予...
08:59
2025年11月19日,北京时间,Jeep品牌正式揭开其首款纯电动SUV——Recon的量产计划。这款备受期待的车型预计将在明年年初与市场见面,为消费者带来全新的电动越野体验。 Recon将搭载一套强劲的双电机系统,总输出功率高达650马力,使其在性能表现上毫不妥协。其百公里加速时间仅需3.6秒,足以让驾驶者感受到电驱带来的极致快感。更值得一提的是,该车标配...
08:59
2025年,韩国三星电子正加速其第六代1c DRAM产能扩张计划,目标在2026年底将月产能提升至20万片晶圆,这一规模将占据其DRAM总产量的三分之一。这一雄心勃勃的战略举措,旨在重新夺回此前被SK海力士超越的市场领先地位,展现其在存储芯片领域的决心与实力。 目前,三星第六代1c DRAM的良率已达到70%的业界领先水平,而用于高性能内存模块HBM4的良率...
08:59
2025年11月18日,伦敦街头频现令人震惊的手机盗窃事件,而受害者们的手机几乎无一例外都是iPhone。这场针对特定品牌的盗窃行动引发社会广泛关注,甚至被戏谑地称为“苹果采摘行动”。多名受害者反映,劫匪在抢夺手机后,一旦发现并非iPhone而是安卓品牌,便会毫不犹豫地将手机丢弃或原路归还。这一现象在街头巷尾屡见不鲜,令人瞠目结舌。 市民西蒙的经历生动地揭示...
08:59
近日,由中铝国际昆明有色冶金设计研究院领衔研发的“刚果(金)低品位复杂铜钴伴生矿绿色高效冶炼关键技术及应用”项目,成功通过科技成果评价,其整体技术水平已达到国际领先标准。这一创新技术不仅在刚果(金)实现了规模化产业化应用,更建成了两条阴极铜生产线,分别为年产4万吨和2.5万吨,且均稳定运行。项目实施以来,累计创造经济效益数亿元,充分彰显了我国在复杂矿产资源绿...
08:59
2025年11月19日,全球汽车巨头Stellantis与特斯拉正式宣布达成深度战略合作,共同推动电动汽车充电设施的互联互通。此次合作的核心内容是Stellantis将选择部分旗下车型全面采用特斯拉北美充电标准(NACS),这意味着这些车型将无缝兼容特斯拉遍布全球的超级充电网络。这一创新举措不仅将极大提升Stellantis电动车主的充电便利性,更将显著增强...
08:59
随着年底临近,各地财政部门正全力以赴推进2026年专项债券项目储备工作。此次筹备的核心目标聚焦于新能源、新基建等建设周期较长的重点领域,通过提前规划布局,有效加强跨年度财政政策的衔接与协同。专家分析指出,这种前瞻性的项目筹备模式,将极大提升明年一季度专项债的发行效率,确保资金能够迅速落地并投入使用。这将有力推动重大项目的早开工、早投产,为稳投资、促增长提供强...
08:28
2025年11月19日,中信建投最新研报揭示了一项重要市场转变:碳酸锂行业正从供给过剩的困境中逐步摆脱,转向由需求拉动价格的新阶段。根据Mysteel发布的权威数据,当月碳酸锂市场供给量约为11.5万吨,而实际需求则高达12.8万吨,形成了1.3万吨的明显缺口。值得注意的是,尽管已进入传统消费淡季,但下游消费需求依然保持强劲态势,这种需求韧性有望持续至202...
08:28
2025年11月19日,全球半导体巨头三星正式公布一项雄心勃勃的扩产计划,目标是在2026年底前将其先进的10纳米第六代DRAM(1c DRAM)月产能提升至惊人的20万片晶圆。这一战略举措的核心目标,是通过大规模增加高性能DRAM的供应,重新巩固并扩大其在全球DRAM市场的领先地位。据悉,此次扩产将重点聚焦于高能效、高性能的1c工艺技术,旨在精准满足未来人...