MiniMax这家公司以其独特的”不鸣则已,一鸣惊人”的调性在科技界声名鹊起,其发展路径鲜明地展现了”技术深潜”与”节点式爆发”的双重特征。十月的最后一周,MiniMax再次掀起技术迭代新浪潮,其模型”全家桶”全面向Agent方向进化,标志着AI技术从实验室走向实用场景的重要跨越。
基础文本模型M1升级为专为Agent和代码而生的M2,视频模型Hailuo2.3迎来突破性升级,Hailuo Video Agent进化为”全模态全能创作”的Media Agent,而全新语音模型Speech2.6则重新定义了下一代Voice Agent的语音交互标准。MiniMax创始人闫俊杰在发布会上引用《老子》中的”大巧若拙”,强调技术最高境界在于回归本质解决实际问题,这一理念贯穿了本次升级的始终。
语音模型升级并非简单的指标提升,而是综合性的技术革新。Speech2.6在模型能力上实现了多项突破,包括利用LoRA技术提升流利度、支持特殊格式读取等创新功能。同时,端到端API工程优化也取得显著进展,低延时、首包优化等技术的应用,为B端厂商和开发者提供了”开箱即用”的智能语音引擎。
MiniMax始终坚守多模态全栈自研战略,多线并进、交叉突破的技术布局已初见成效。Speech2.6Agent化的背后,是更广阔的Voice Agent赛道。据行业研究报告预测,2030年Voice Agent市场规模有望突破百亿美元大关,技术突破将推动这一数字进一步攀升。
Voice Agent作为”语音交互代理人”,是连接用户语音指令与后端服务的核心桥梁。与传统语音指令识别不同,它具备完整的交互能力,无论是智能音箱的日常问答,还是企业客服系统的智能应答,几乎所有需要”用说话代替打字”的场景,都依赖Voice Agent来承接需求、理解意图并给出反馈。可以说,Voice Agent是当前覆盖范围最广、用户需求最迫切的语音交互形态。
如果把Voice Agent比作行驶的汽车,那么语音模型就是发动机。语音模型的性能直接决定了Voice Agent的场景化效果,强大的语音模型底座是Voice Agent高效运行的必要条件。Speech2.6正是延续了这一思路,在持续提升语音模型性能的基础上,全面升级突破Voice Agent场景,实现超低延时、专业格式无障碍和更高自然度。
用户对语音的敏感度远高于文字,快一毫秒或迟一毫秒,效果差异明显。在日常语音交互中最烦人的”卡壳”问题,Speech2.6通过将首包响应时间压到250毫秒,相当于眨一下眼的三分之一时间,实现了近乎真人聊天的流畅体验。据实测,虽然国外部分顶流模型宣称可达到75毫秒,但实际场景测试平均保持在200-300毫秒,MiniMax的250毫秒响应速度已达到语音赛道头部水平。

实际场景测试中,光子星球2分钟的用户体验反馈显示,几乎感觉不到卡顿,对话流畅自然。以常见的客服咨询场景为例,AI在音色上已难以分辨人与机器的差异,能精准连续识别用户意图,如”你是不是助理””有什么新功能””有没有优惠”等,并在无缝衔接作出回答的同时完成反问和留资,展现了人类对话中的精髓——”有来有往”。
第二个升级重点是模型变得更”聪明”和”更懂行”。升级后的Speech2.6无需人工教学,可直接解码读出电话、邮箱、网址、数学公式等专业内容,避免了传统语音模型需要手动改写输入的繁琐操作。这一改进在涉及语音交互的关键环节尤为重要,任何信息获取和建联环节的失误都可能导致无效沟通。对开发者而言,这意味着省事又高效,尤其适合智能客服、日程管理、教育类语音代理团队,相关技术栈都能得到简化。
新增的”Fluent Lora”功能堪称”化腐朽为神奇”。做音色克隆时,即使用户提供的录音素材不完美,如说话结巴、带口音、非母语不流利等,Speech2.6也能复刻出流畅自然的声音。例如,想复刻一位外国友人的中文语音,即使他中文说得慢且有口音,生成的AI语音依然流畅自然,这对有声书、个性化语音助手等场景极具实用价值。
回顾MiniMax Speech系列模型的自我演进历程,也是国内AI语音技术从模仿拟人逐渐走向交互智能的缩影。今年5月发布的MiniMax Speech02,创新的”Zero-Shot”能力,通过一个模型提供任意”语言×任意口音×任意音色”的无限组合,丰富了语音生成的多样性,一经推出就登顶”Artificial Analysis Speech Arena”和”Hugging Face TTS Arena”两大权威榜单。8月上线的MiniMax Speech2.5进一步突破,实现多语种表现力更强、音色复刻更像、40个语种覆盖更广,为MiniMax出海奠定了基础。而刚更新的Speech2.6则揭开Voice Agent新篇章,开始针对实用场景进行综合提升,反映其背后商业化的清晰战略。
大模型与语音技术的深度融合,正在推动AI语音从工具属性向与场景绑定的智能体演进,从前一阶段的能听懂升级为会思考、善沟通。在商业世界,语音交互被视为极具增长前景的新入口。在许多人力密集的传统行业,Voice Agent可以重新定义业务流程。贯穿始终的逻辑是”成本归零”和”服务扩展性”。To B场景中,Voice Agent可以替代大量重复性的人工沟通工作,如客服、外呼销售、员工培训等。若AI成本持续下降,这些行业的人工成本理论上可无限趋近于零,这将是一次重要的降本增效革命。
一旦成本结构转变,商业模式将迎来重构。身处于这些行业的企业有机会追求更高的价值,从以成本为中心向以利润为中心转型。价值链的重塑体现在企业级服务,Voice Agent的价值在于它能直接切入业务核心,一个可靠的Voice Agent可以直接嵌入工作流,成为用户与SaaS系统交互的首要触点。协同内外部系统,Voice Agent可以将整个业务流程打穿,推动全链路效率革命。例如,在汽车试驾场景,用户说”想试驾新款SUV”,Agent立即匹配库存数据,若车型有现车则直接推荐最近门店,否则自动调整推荐其他车型或时间,整个过程无需人工介入。
回到现实,Voice Agent市场发展仍在早期,还处于从技术验证期向企业级落地的转型阶段。尽管行业已有基建层向应用层过渡的趋势,但整体呈现出”倒金字塔式”竞争格局,上层垂直行业应用层企业众多,最底层能够稳定向上输出技术能力的基建企业数量较少。毫无疑问,MiniMax就是其中典型的”基建狂魔”。其Speech系列语音模型不绑定特定行业场景,而是通过底层技术和工程优化,为B端厂商和开发者提供可复用的技术模块。

通过开源模型和API服务,将音色模仿、语音生成等能力封装为标准化工具,以降低企业接入门槛。技术能力向上下游延伸,与文本、视频、音乐等多模态能力形成协同效应。语音领域始终是MiniMax的技术主场,早在行业初期就达成了多个”国内首个”成就:国内首个使用大模型语音技术开放多角色配音商用接口,首个开设语音模型海外API服务,以及首个与声网、腾讯和即构科技联合研发Realtime API实时交互服务方案。这导致一段时间内,客户对其语音模型的认可度一度超越了文本大模型。
得益于此,MiniMax目前进入了海内外客户语音模型选型的核心厂商名单,包括一些大厂。市场反馈尤为直观,很多人反映在同期产品中,MiniMax语音模型更具性价比。不少客户对MiniMax的小语种功能印象深刻,特别是粤语的表达”标准到接近电视台播报水平”。海外客户主要为开发者平台和AI语音代理基础设施提供商,以技术驱动和生态集成为导向,这些客户大多追求快速集成、高自定义性和全球部署能力。其中,MiniMax语音模型的超低延迟、情感语言控制和多语言优化等功能,成为被采纳的主要参考。
目前海外最流行的两家Voice Agent开源平台Livekit与Pipecat已接入MiniMax Speech TTS Model,展现了MiniMax在高性能语音代理生态中的适配性。国内客户覆盖领域则更广阔,包括教育硬件、智能玩具等C端消费级产品,销售、搜索等B端行业解决方案以及通过开发者平台赋能技术型客户,以高自然度的语音技术,满足不同场景下更人性化、更高效的交互需求。教育类客户中,爱小伴AI奶龙作为IP衍生玩具,利用MiniMax还原角色声线,支持故事讲述和情感互动,体现”寓教于陪”的定位;听力熊学习机基于自研TeeniGPT大模型,集成MiniMax语音能力进行自然对话,增强学生学习的互动体验。
面向C端的智能助手与硬件,MiniMax利用语音技术帮助企业提升用户体验,增强用户粘性,其客户涉及了荣耀、魅族、小米等硬件厂商。在B端销售领域,MiniMax与”Megaview AI助手”达成合作,语音生成与情感识别能力为其提供底层支持,提高业务效率。不难看出,除了技术升级外,MiniMax的语音模型已经进入了商业验证期。对比同行,MiniMax在B端业务的风格呈现出轻交付、重质量特点。通过标准化、模块化的API输出技术能力,降低合作伙伴的集成成本,优点是周期短和风险小,靠用户的正向反馈将带来后期稳定增长。
这种模式使其能够快速扩大覆盖业务范围,又能保持技术研发的聚焦性,这点对一家资源有限的创业公司极其重要。短期内,Voice Agent市场还卡在技术环节。这意味着具备核心技术标准制定能力的企业将主导底层生态,而率先完成行业场景深度适配的解决方案商将赢得上层市场。未来,语音交互可能成为企业数字化转型的标配接口,但真正的赢家将是那些能同时驾驭技术深度与场景广度的生态构建者。
