MiniMax这家公司以其独特的”不鸣则已,一鸣惊人”的调性在科技界声名鹊起,其发展路径鲜明地展现了”技术深潜”与”节点式爆发”的双重特征。十月的最后一周,MiniMax再次掀起技术迭代新浪潮,其模型”全家桶”全面向Agent方向进化,标志着AI技术从实验室走向实用场景的重要跨越。

基础文本模型M1升级为专为Agent和代码而生的M2,视频模型Hailuo2.3迎来突破性升级,Hailuo Video Agent进化为”全模态全能创作”的Media Agent,而全新语音模型Speech2.6则重新定义了下一代Voice Agent的语音交互标准。MiniMax创始人闫俊杰在发布会上引用《老子》中的”大巧若拙”,强调技术最高境界在于回归本质解决实际问题,这一理念贯穿了本次升级的始终。

语音模型升级并非简单的指标提升,而是综合性的技术革新。Speech2.6在模型能力上实现了多项突破,包括利用LoRA技术提升流利度、支持特殊格式读取等创新功能。同时,端到端API工程优化也取得显著进展,低延时、首包优化等技术的应用,为B端厂商和开发者提供了”开箱即用”的智能语音引擎。

MiniMax始终坚守多模态全栈自研战略,多线并进、交叉突破的技术布局已初见成效。Speech2.6Agent化的背后,是更广阔的Voice Agent赛道。据行业研究报告预测,2030年Voice Agent市场规模有望突破百亿美元大关,技术突破将推动这一数字进一步攀升。

Voice Agent作为”语音交互代理人”,是连接用户语音指令与后端服务的核心桥梁。与传统语音指令识别不同,它具备完整的交互能力,无论是智能音箱的日常问答,还是企业客服系统的智能应答,几乎所有需要”用说话代替打字”的场景,都依赖Voice Agent来承接需求、理解意图并给出反馈。可以说,Voice Agent是当前覆盖范围最广、用户需求最迫切的语音交互形态。

如果把Voice Agent比作行驶的汽车,那么语音模型就是发动机。语音模型的性能直接决定了Voice Agent的场景化效果,强大的语音模型底座是Voice Agent高效运行的必要条件。Speech2.6正是延续了这一思路,在持续提升语音模型性能的基础上,全面升级突破Voice Agent场景,实现超低延时、专业格式无障碍和更高自然度。

用户对语音的敏感度远高于文字,快一毫秒或迟一毫秒,效果差异明显。在日常语音交互中最烦人的”卡壳”问题,Speech2.6通过将首包响应时间压到250毫秒,相当于眨一下眼的三分之一时间,实现了近乎真人聊天的流畅体验。据实测,虽然国外部分顶流模型宣称可达到75毫秒,但实际场景测试平均保持在200-300毫秒,MiniMax的250毫秒响应速度已达到语音赛道头部水平。

MiniMax语音模型升级:打造全新智能语音交互体验插图

实际场景测试中,光子星球2分钟的用户体验反馈显示,几乎感觉不到卡顿,对话流畅自然。以常见的客服咨询场景为例,AI在音色上已难以分辨人与机器的差异,能精准连续识别用户意图,如”你是不是助理””有什么新功能””有没有优惠”等,并在无缝衔接作出回答的同时完成反问和留资,展现了人类对话中的精髓——”有来有往”。

第二个升级重点是模型变得更”聪明”和”更懂行”。升级后的Speech2.6无需人工教学,可直接解码读出电话、邮箱、网址、数学公式等专业内容,避免了传统语音模型需要手动改写输入的繁琐操作。这一改进在涉及语音交互的关键环节尤为重要,任何信息获取和建联环节的失误都可能导致无效沟通。对开发者而言,这意味着省事又高效,尤其适合智能客服、日程管理、教育类语音代理团队,相关技术栈都能得到简化。

新增的”Fluent Lora”功能堪称”化腐朽为神奇”。做音色克隆时,即使用户提供的录音素材不完美,如说话结巴、带口音、非母语不流利等,Speech2.6也能复刻出流畅自然的声音。例如,想复刻一位外国友人的中文语音,即使他中文说得慢且有口音,生成的AI语音依然流畅自然,这对有声书、个性化语音助手等场景极具实用价值。

回顾MiniMax Speech系列模型的自我演进历程,也是国内AI语音技术从模仿拟人逐渐走向交互智能的缩影。今年5月发布的MiniMax Speech02,创新的”Zero-Shot”能力,通过一个模型提供任意”语言×任意口音×任意音色”的无限组合,丰富了语音生成的多样性,一经推出就登顶”Artificial Analysis Speech Arena”和”Hugging Face TTS Arena”两大权威榜单。8月上线的MiniMax Speech2.5进一步突破,实现多语种表现力更强、音色复刻更像、40个语种覆盖更广,为MiniMax出海奠定了基础。而刚更新的Speech2.6则揭开Voice Agent新篇章,开始针对实用场景进行综合提升,反映其背后商业化的清晰战略。

大模型与语音技术的深度融合,正在推动AI语音从工具属性向与场景绑定的智能体演进,从前一阶段的能听懂升级为会思考、善沟通。在商业世界,语音交互被视为极具增长前景的新入口。在许多人力密集的传统行业,Voice Agent可以重新定义业务流程。贯穿始终的逻辑是”成本归零”和”服务扩展性”。To B场景中,Voice Agent可以替代大量重复性的人工沟通工作,如客服、外呼销售、员工培训等。若AI成本持续下降,这些行业的人工成本理论上可无限趋近于零,这将是一次重要的降本增效革命。

一旦成本结构转变,商业模式将迎来重构。身处于这些行业的企业有机会追求更高的价值,从以成本为中心向以利润为中心转型。价值链的重塑体现在企业级服务,Voice Agent的价值在于它能直接切入业务核心,一个可靠的Voice Agent可以直接嵌入工作流,成为用户与SaaS系统交互的首要触点。协同内外部系统,Voice Agent可以将整个业务流程打穿,推动全链路效率革命。例如,在汽车试驾场景,用户说”想试驾新款SUV”,Agent立即匹配库存数据,若车型有现车则直接推荐最近门店,否则自动调整推荐其他车型或时间,整个过程无需人工介入。

回到现实,Voice Agent市场发展仍在早期,还处于从技术验证期向企业级落地的转型阶段。尽管行业已有基建层向应用层过渡的趋势,但整体呈现出”倒金字塔式”竞争格局,上层垂直行业应用层企业众多,最底层能够稳定向上输出技术能力的基建企业数量较少。毫无疑问,MiniMax就是其中典型的”基建狂魔”。其Speech系列语音模型不绑定特定行业场景,而是通过底层技术和工程优化,为B端厂商和开发者提供可复用的技术模块。

MiniMax语音模型升级:打造全新智能语音交互体验插图1

通过开源模型和API服务,将音色模仿、语音生成等能力封装为标准化工具,以降低企业接入门槛。技术能力向上下游延伸,与文本、视频、音乐等多模态能力形成协同效应。语音领域始终是MiniMax的技术主场,早在行业初期就达成了多个”国内首个”成就:国内首个使用大模型语音技术开放多角色配音商用接口,首个开设语音模型海外API服务,以及首个与声网、腾讯和即构科技联合研发Realtime API实时交互服务方案。这导致一段时间内,客户对其语音模型的认可度一度超越了文本大模型。

得益于此,MiniMax目前进入了海内外客户语音模型选型的核心厂商名单,包括一些大厂。市场反馈尤为直观,很多人反映在同期产品中,MiniMax语音模型更具性价比。不少客户对MiniMax的小语种功能印象深刻,特别是粤语的表达”标准到接近电视台播报水平”。海外客户主要为开发者平台和AI语音代理基础设施提供商,以技术驱动和生态集成为导向,这些客户大多追求快速集成、高自定义性和全球部署能力。其中,MiniMax语音模型的超低延迟、情感语言控制和多语言优化等功能,成为被采纳的主要参考。

目前海外最流行的两家Voice Agent开源平台Livekit与Pipecat已接入MiniMax Speech TTS Model,展现了MiniMax在高性能语音代理生态中的适配性。国内客户覆盖领域则更广阔,包括教育硬件、智能玩具等C端消费级产品,销售、搜索等B端行业解决方案以及通过开发者平台赋能技术型客户,以高自然度的语音技术,满足不同场景下更人性化、更高效的交互需求。教育类客户中,爱小伴AI奶龙作为IP衍生玩具,利用MiniMax还原角色声线,支持故事讲述和情感互动,体现”寓教于陪”的定位;听力熊学习机基于自研TeeniGPT大模型,集成MiniMax语音能力进行自然对话,增强学生学习的互动体验。

面向C端的智能助手与硬件,MiniMax利用语音技术帮助企业提升用户体验,增强用户粘性,其客户涉及了荣耀、魅族、小米等硬件厂商。在B端销售领域,MiniMax与”Megaview AI助手”达成合作,语音生成与情感识别能力为其提供底层支持,提高业务效率。不难看出,除了技术升级外,MiniMax的语音模型已经进入了商业验证期。对比同行,MiniMax在B端业务的风格呈现出轻交付、重质量特点。通过标准化、模块化的API输出技术能力,降低合作伙伴的集成成本,优点是周期短和风险小,靠用户的正向反馈将带来后期稳定增长。

这种模式使其能够快速扩大覆盖业务范围,又能保持技术研发的聚焦性,这点对一家资源有限的创业公司极其重要。短期内,Voice Agent市场还卡在技术环节。这意味着具备核心技术标准制定能力的企业将主导底层生态,而率先完成行业场景深度适配的解决方案商将赢得上层市场。未来,语音交互可能成为企业数字化转型的标配接口,但真正的赢家将是那些能同时驾驭技术深度与场景广度的生态构建者。

最新快讯

2025年11月01日

00:57
2025年11月1日,淡水河谷发布最新业绩进展,正式确认公司正稳步迈向年度业绩目标。作为全球矿业巨头,淡水河谷近期在全球范围内同步推进矿区运营优化与产能扩张计划,将铁矿石和镍等核心产品的生产效率提升与成本控制作为战略重点。这一系列举措不仅展现了公司对可持续增长的坚定承诺,更体现了其对股东回报的持续关注。淡水河谷管理层表示,尽管当前外部市场环境存在一定波动,但...
00:57
2026年,毕马威将启动一项创新举措,对员工在年度绩效评估中运用人工智能工具的效果进行全面审查。这一重要计划由毕马威全球人工智能人才负责人Niale Cleobury亲自披露,旨在通过微软Copilot等先进AI工具的数据追踪系统,精准评估员工在日常工作中的AI应用水平。 该举措的核心目标在于推动人工智能技术在咨询业务领域的深度整合,从而显著提升团队的工...
00:57
2025年11月1日,备受瞩目的科技企业明略科技在香港联合交易所成功敲钟上市,正式宣告其首次公开募股(IPO)圆满收官,此次融资总额高达10.2亿港元,引发市场广泛关注。作为大数据与人工智能领域的领军者,明略科技此次IPO不仅为其注入强劲发展动力,更标志着其全球化布局迈入崭新阶段。 本次发行在港交所主板顺利进行,发行价格精准定位于区间中位,充分展现了公司稳健...
00:57
2025年10月31日,备受瞩目的南京硅基智能科技集团股份有限公司正式向香港交易所递交了主板上市申请,标志着这家在人工智能领域深耕多年的科技企业迈出了资本市场的重要一步。此次联席保荐人由招银国际与星展银行联合担任,为公司的上市之路提供了强大的专业支持。作为国内人工智能技术研发与应用的领军企业,硅基智能科技始终致力于推动AI技术的创新突破,此次选择登陆港交所主...
00:27
2025年11月1日,全球能源巨头埃克森美孚正式宣布,人工智能技术在石油天然气行业的应用前景广阔,有望成为推动行业转型升级的关键力量。公司高层强调,通过深度整合AI技术优化勘探、钻井及生产全流程,不仅能实现运营效率的跨越式提升,更能大幅降低生产成本,为能源企业创造显著的经济效益。 埃克森美孚目前正积极推进一系列前沿项目,将AI驱动的预测模型与自动化系统应...
00:27
2023年10月31日,中国自动驾驶技术领军企业文远知行在阿联酋迪拜正式获得纯无人驾驶Robotaxi商业化运营许可,这一历史性突破标志着全球自动驾驶技术商业化进程迈入新纪元。该许可为文远知行授权在迪拜特定区域部署完全无需安全员干预的无人驾驶出租车服务,实现了从测试阶段到商业化运营的跨越式发展。作为全球首批获得此类许可的企业之一,文远知行此次获批的商业化运营...

2025年10月31日

23:55
2025年10月31日,西部超导在一场备受瞩目的业绩说明会上宣布了一项具有里程碑意义的进展——公司自主研发的MgB2等超导产品已成功实现规模化量产。这一突破性成果不仅彰显了西部超导在新型超导材料研发领域的强大实力,更标志着我国超导技术产业化的新里程碑。据悉,这些超导产品在批量生产过程中展现出卓越的性能稳定性与优异的质量控制水平,各项关键指标均达到国际先进标准...
23:55
2025年10月31日,小米集团正式宣布可穿戴部门创新产品业务负责人李创奇已正式离职。据行业消息透露,李创奇近期已离开小米团队,但公司方面并未公开其离职的具体原因。这一变动引发了市场的高度关注,毕竟李创奇在小米智能穿戴及新兴硬件产品的研发与战略规划中扮演着关键角色。 尽管李创奇的离职给外界带来了一些疑虑,小米集团却通过官方声明传递出积极的信号。公司强调,相关...
23:24
2025年10月31日,鼎智科技正式发布了投资者关系活动记录表,向外界展示了其在人型机器人领域的核心竞争优势。作为关键零部件供应商,鼎智科技已与智元机器人、脉塔智能等业内领先企业建立了稳固的订单合作关系,为人型机器人研发提供了重要技术支撑。 公司专注于空心杯电机、无框力矩电机、旋转关节模组等核心产品的研发与生产,这些产品是人型机器人实现精准运动控制的关键...
23:24
2025年10月31日,全球领先的科技企业英伟达正式宣布,将携手三星、SK Telecom、韩国电子通信研究院(ETRI)、韩国电信(KT)、LG U+以及延世大学,共同启动一项具有里程碑意义的合作项目,旨在研发下一代AI-RAN(人工智能无线接入网)与6G通信基础设施。这一战略联盟的成立,标志着全球科技界在推动移动通信技术革新方面迈出了重要一步,预示着未来...
23:24
2025年10月31日,备受瞩目的生物制药企业麓鹏制药有限公司-B正式向香港交易所递交了主板上市申请,标志着这家创新药企迈出了资本市场的重要一步。此次IPO由业内知名的中信证券独家担任保荐机构,展现了资本市场对该企业未来发展的坚定信心。根据公开披露的信息,麓鹏制药计划通过本次发行募集的资金,重点投向前沿新药的研发、多期临床试验的推进以及企业日常运营的优化,为...
23:24
美国食品药品监督管理局(FDA)于当地时间10月31日紧急宣布,多家制药企业联合召回了超过58万瓶盐酸哌唑嗪降压药。此次召回行动由新泽西州的梯瓦制药和美源健康服务公司于本月月初率先发起,主要原因是部分药品批次可能含有亚硝胺类杂质。这类杂质已被证实具有潜在致癌风险,对长期用药者的健康构成严重威胁。 盐酸哌唑嗪作为一种常见的降压药物,同时广泛应用于治疗创伤后应激...