声明:本文来自于微信公众号 新莓,作者:司晓柏,授权站长之家转载发布。

腾讯AI刚打完一手明牌。元宝、龙虾特工队、养虾全景图,产品矩阵铺到桌面上,生态布局画得清清楚楚。

但明牌底下还压着一张暗牌。

3月27日,腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题。」

一个是大模型公司技术同学的切肤之痛,一个是大厂掌门人的战略洞察。两个人从不同方向,撞进了同一件事——它不在任何产品发布清单上,藏在底层:十万级并发沙箱、百毫秒级启动、两群工程师在行业还没反应过来之前,悄悄把基础设施推到了下一个属于Agent的时代。

这才是那张名为「工程」的暗牌。

白板上的四个字

2022年初,MiniMax还没有这个名字。创始人闫俊杰在一间简陋办公室的白板上写下「下一代AI」。彼时GPT-3刚发布不久,ChatGPT要再等一年,「AGI」这个词还没几个人聊。四年后的2026年1月,MiniMax港交所上市,首日涨幅达到109%,市值突破1000亿港元。

但阿岛——缪宇航,公司内部都这么叫他——站在峰会台上翻出这张白板老照片时,讲的不是上市的事。

他反复说的是一个技术困境:模型训练的底层逻辑变了。模型不再是做完一道题就交卷——它得在真实环境里操作文件、写代码、调用工具、处理异常,每次试错都要一个独立运行环境。当需求膨胀到十万级并发,云计算的底层架构被撞出了裂缝。

K8S撑不住了

大模型过去靠经典强化学习变聪明——给个问题,生成回答,打分,更新参数。但到了2025年下半年,天花板肉眼可见了。模型在封闭环境里「做题」已经很强,一放到真实世界立刻大打折扣——没有持久状态,每次对话都是全新开始;只能写代码不能跑代码,缺少「写→跑→看→修」的自我验证循环;无法获取实时知识,也无法搭建真实的工作环境。

说到底,裸模型像一台空转的引擎,引擎本身不是汽车。MiniMax从M2.5版本开始押另一条路:Agentic RL(基于强化学习的智能体训练)——直接把模型扔进真实操作系统环境里干活。走通了,能力质变。但它需要全新的训练基础设施。

但是,以前我们可能只是让AI写一段话,或者处理一个简单的函数,但随着Agent的到来,我们现在要求AI去修理一辆正在跑的超级大卡车,或者是从头造出一台能用的iPhone。这意味着在Agent时代,模型面对的训练任务是地狱级的。

每个训练任务可能推演(Roll out)出上百条尝试路径(Trajectory),每条路径都需要一个独立的沙箱环境。面对成千上万个用户请求(Query),每个请求都要同时开启上百个沙箱并发运行。

阿岛说了句大实话:「一开始我们在K8S上跑。然后发现真的不行,并发完全起不来。」K8S——Kubernetes,现代云计算事实上的调度标准。但这套为微服务时代设计的系统,面对Agent训练动辄几万个沙箱同时拉起的场景,扛不住了。

腾讯云Agent Runtime产品副总经理于广游(Gary)捅破了一层窗户纸:「每一个大模型企业内部,训练沙箱基础设施面临两大困境。第一,它是CPU的,不是GPU的,所以很难发论文。第二,搞K8S那群人看到你竟然要拉master(指向K8S系统核心频繁索要资源)拉几千下几万下,把我拉垮了,第一反应是——你能不能不要拉这么多。」

这种高频、海量的调度需求,正是目前大模型落地工程中最隐形、也最头疼的「摩擦力」,它直接卡住了模型迭代的脖子。

偏偏MiniMax一个月发一个模型版本,国内可能唯一做到这个频率的,全球只有OpenAI保持类似节奏。算一笔账:Agentic RL训练时,GPU集群等沙箱启动的每一秒都在空转烧钱。十万个并发沙箱,启动要几分钟,累积等待可能吞掉数小时甚至数天的GPU算力。

沙箱慢一天,模型落后一天。「现在的竞争就是这么激烈。」

百万级吞吐怎么来的

问题摆在那里,MiniMax和腾讯云很快走到了一起。

2026年3月18日,双方宣布合作:基于腾讯云Agent Runtime沙箱产品,MiniMax部署了百万级吞吐、十万级并发的Agent RL沙箱,测试环境全量平稳运行。阿岛说:「据我们所知,这是国内最大的训练沙箱系统之一。」Gary说,规模比同行高出至少一个数量级。

效果最直观的数字是启动速度——从几分钟压到百毫秒级,快了数倍。前面那笔GPU空转的账,直接被压缩了一个量级。

撑住这个规模,腾讯云在底层做了大量累活。计算层:调度优化、内核锁优化、快照技术、内存映射。存储层:专门开发了加速存储方案。Gary打了个比方——「过去需要买一块云盘,现在可以理解成买一个镜像盘或者沙箱盘,磁盘本身就是镜像本身。」

他指出,大家现在都在尝试用「旧瓶装新酒」,但这两个旧瓶子(K8S和Serverless)的设计初衷,刚好和Agent的性格完全相反:把Agent想象成一个有记忆、要长时间闭关思考的专家,但K8S按照惯例把给Agent关掉重启,Agent就会瞬间失忆,Serverless(无服务器计算)就像是频繁开关的「声控灯」,但正在「写论文」的Agent却需要灯光长亮。

这就是为什么腾讯云要给Agent造一个新的流水线。Gary强调,「这些不是因为我们比别人更聪明,而是我们真正认识到这里的问题跟价值」。

对于Agent需要怎样的训练设施,业内还有一个容易被忽视的区别:大多数AI公司解决沙箱问题的思路是在本地搭环境——进程跑在自己机器上,安全靠手动确认,电脑一关任务就断。

腾讯云走的是另一条路:把整个Harness拆成「控制面+执行面」的云原生架构。控制面做编排、权限、审计;执行面就是Agent Runtime沙箱,每个任务跑在独立的云端隔离环境里,毫秒级启动,用完即焚,任务状态持久化存储,沙箱销毁了也能从断点恢复。一个是「带安全带的智能终端」,一个是「带监控和隔离舱的云工厂」——对企业场景来说,安全、协作、弹性缺一不可,后者才是生产级方案。

同一堵墙

汤道生的判断干脆利落——主流大模型推理能力都不差了,国内开源跟海外闭源的差距在收窄。比拼重心正在转移:不是「谁的模型更强」,是谁能通过工程化手段把模型用好。

他在峰会上把「工程题」拆得很细:模型要真正落地,需要工具调用能力、需要上下文管理、需要长记忆、需要安全的执行环境、需要工作流编排——这些东西加在一起,他用了一个词概括:Harness,模型的「脚手架」。汤道生的意思很明确,腾讯云要做的不是卖算力,而是帮企业把这套脚手架搭起来。

行业正在形成一个共识性公式:Agent = Model + Harness。Model负责「想」,Harness负责让智能变得「有用」——工具调用、代码执行沙箱、上下文工程、长记忆管理、工作流编排,一整套系统工程。模型决定能力下限,Harness决定能力上限。有实践数据可以佐证:花三个月调Prompt,质量提升20%;花两周搭Harness,任务完成率从35%飙到82%。

这不是腾讯一家的发现。

2026年2月,HashiCorp联合创始人Mitchell Hashimoto正式提出「Harness Engineering」。几乎同期,OpenAI做了一个激进实验——3名工程师,5个月,100万行代码,零行人工代码,人类只管设计Harness。Anthropic、LangChain也摸到了类似结论。

全世界最顶尖的工程大脑,在不同时区同时碰到了同一堵墙:模型的能力天花板还远,但工程框架的地板才决定实际效果。行业的关注点正在从「Prompt工程」转向「上下文工程」——不再只是「怎么写指令」,而是「如何构建模型看到的全部信息体系」。

阿岛把这变成了一个画面:「就像一辆F1赛车,我们去开,能顺利开回来就不错了。但真正的赛车手能刷出世界纪录。今天Agent也是同样的——我们能不能为它打造企业级的F1车身,也就是Harness?」

MiniMax的实践印证了这一点。MiniMax M2.7正式开启模型的自我进化,AI深度参与了模型的训练,强化学习中50%-70%的工作由Agent自主完成。人类研究员的角色变了,变成跟Agent聊实验idea。

但前提是:沙箱够快、够稳、够大。Harness是一套系统工程,包含文件系统、代码执行、记忆、搜索、上下文管理、编排六大组件——而沙箱是其中最底层的那一块,所有上层能力都建立在「模型能不能真正在一个环境里跑起来」这个前提之上。否则再精巧的Harness设计,也卡在最不起眼的环节上。汤道生那句「AI落地是一道工程题」,说的不只是Harness设计,更是底层基础设施的硬功夫。

两群工程师的气味相投

阿岛在峰会上放了那张MiniMax Day1的白板照片。「成立的Day1就有腾讯云提供支持。那时候我们还是名不见经传的小公司,腾讯云并没有因为我们小就怠慢,和我们一起搭建了训练算力集群,一起服务了第一个爆款产品。」

四年,合作从算力集群到Agent RL沙箱、全球合规、上层应用接入。阿岛说腾讯云「非常技术驱动,思维也非常agent first」。听着像客套,但对照实际发生的事看,它指向一种具体的行为模式:遇到问题,不绕路,不等标准,先把手弄脏。

K8S跑不动,就一起从头设计专用沙箱。行业还没认识到Agent基础设施的价值,就自己先投进去。这种默契是项目里做出来的,不是会议室里谈出来的。

MiniMax模型开源,腾讯云通过TokenHub分发模型服务。阿岛说:「哪怕已经上市了,我们仍然是一家只有几百人的小公司,不可能服务那么多大客户。」腾讯云帮他把模型送到更多客户手里;MiniMax那些极端的训练需求,也在倒逼腾讯云向Agent时代进化。

而MiniMax不是唯一一个撞上这堵墙的。任何一家认真做Agentic RL的公司,迟早都会遇到同样的沙箱瓶颈。区别只在于,有没有人先把路趟出来。

Gary说:「我们是在两个时代的临界点上,一起携手。」阿岛的表述类似:「一个新时代对旧时代的——其实我们是在一边的。」

那张暗牌

MiniMax的M2.7在AA大模型榜单国产模型排名第一,跟Claude在SWE-bench Verified上差距只剩0.6%。

阿岛判断:「再过一两年能留在牌桌上的公司可能不超过5家。」靠什么留?衡量这个时代工程师的水平,基本上看一个指标——他同时能并发多少个Agent为他工作,他每天能燃烧多少Token。

这个指标适用于个人,也适用于公司。训练效率真正的瓶颈,不在GPU——在沙箱。

汤道生在上海峰会上还宣布了腾讯云底层平台Cube全面开源,企业可直接用于智能体训练和部署。这实际上就是腾讯回应「沙箱困境」的其中一个解法,通过开源,让大模型的脚手架更好用。

腾讯已经把AI的明牌摊在桌上——产品矩阵、生态全景图、IM入口、Skill工具箱,面向用户,展示得明明白白。Cube开源则是另一种姿态,面向的不是用户,是盟友。不是「看我们有什么」,是「这些能力你们拿去用。」

明牌秀肌肉,暗牌亮底牌。一个是产品生态的广度,一个是工程基础设施的深度。

汤道生那句话,「AI落地是一道工程题」,或许还可以再加半句:工程题的解法,从来不是一个人闷头做的。

四年前那块白板上写着「下一代AI」。四年了,字没变。写字的人,多了几个。

最新快讯

2026年04月09日

21:47
微新创想:2026年4月9日,美国云服务器运营商Soluna Holdings宣布以5300万美元收购得克萨斯州150MW装机容量的Briscoe风电项目。这一重大举措不仅彰显了Soluna在能源领域的战略布局,也标志着该公司正式从单纯的电力消费者转变为集土地、可再生能源与数据中心于一体的垂直整合运营主体。 微新创想:通过此次收购,Soluna旨在提升供电稳...
21:16
微新创想:腾讯云今天正式上线QClaw V2大版本(版本号V0.2.5)聚焦解决AI在实际工作中记不住、乱回复、难联动、不安全等核心痛点带来三大核心能力升级 新版本亮点之一是多Agent并行处理机制用户可同时拉起最多3个Agent并行工作将复杂长任务拆解、消化各司其职、同步开工、互不干扰大幅缩短工期耗时 为解决跨应用操作断层的难题QClaw V2推出智能连接...
21:16
微新创想:2026年4月,谷歌联合美国航空与Flightkeys启动了一项关于AI航班路径优化的研究项目。这项研究旨在通过人工智能技术提升航空运输的环保性能,减少对环境的影响。 该系统利用卫星数据和气象预测模型,实时分析并估算凝结尾迹的生成概率。凝结尾迹是飞机在高空飞行时,由于发动机排放与空气温度变化形成的云状物,对气候有着显著影响。研究团队采用CO₂e(二...
21:16
微新创想:2026年4月9日,长三角生态绿色一体化发展示范区执委会宣布,年内将在“一厅三片”重点区域实施163个重大项目。这些项目涵盖互联互通、生态环保、产业创新和民生服务等多个关键领域。它们的实施将有助于推动示范区从形象开发阶段向功能培育阶段转变。 微新创想:此次重大项目部署是落实长三角一体化发展战略的重要一步。通过加强区域间的协同合作,示范区将全面提升综...
21:16
微新创想:一只小猫的意外“酒局”引发全网热议 咱平常都说猫贪玩,可贵州这只小猫的“贪玩”经历,那可真是让人又惊又笑。近日,在贵州,一只小猫不知道咋想的,居然掉进了一个大酒缸里。这酒缸可不简单,里面盛着足足一百多斤的美酒呢! 小猫掉进去之后,那叫一个慌啊,一边“喵喵喵”地大声呼救,一边还不小心灌进去了不少酒。可这酒缸实在是太高了,小猫自己根本爬不出来。主人听到...
21:16
微新创想:2026年4月9日,上海市商务委印发《2026年上海市扩消费行动方案》。方案明确大力发展免退税经济,推广“即买即退”服务,增加离境退税智能终端布设,扩大“掌上办”线上平台试运行范围。此举旨在提升境外旅客的消费便利度,使他们在购物时更加高效快捷。 微新创想:支持国产优质品牌进入免税销售渠道,有助于提升本土品牌的国际影响力。同时,加快推进上海港国际客运...
21:16
微新创想:不久前有博主指出,自己的形象被AI短剧《桃花簪》擅自使用,其中一位还被设定成反派角色。这让很多人感到愤怒。AI短剧侵权问题正在扩大化,普通人也难以幸免。在这种背景下,我们有必要深入探讨AI短剧侵权的现状与挑战。 事实上,平台方已经迅速作出反应。红果短剧最近连续发布两则公告,其中一项针对短剧《桃花簪》的处理结果。在72小时审核期内,出品方未能提供素材...
21:16
微新创想:2026年4月9日,上海市商务委员会印发《2026年上海市扩消费行动方案》,明确提升商圈建设能级。方案提出结合城市更新,推进南京东路等重点商圈项目升级改造。此举不仅有助于改善城市面貌,更能提升区域商业活力,吸引更多的消费者和商户入驻。 微新创想:创新地下商业空间开发运营模式,成为方案中的重要一环。通过合理规划与高效利用地下空间,可以拓展商业面积,缓...
21:16
微新创想 近日,一只8个月大的戴眼镜小狗在网络上引发了广泛关注。这只小狗因为视力问题,常常在家中撞到家具,甚至认不出主人,吃饭时也要在地上趴很久才能找到食物。经过宠物医院的检查,发现它患有高度近视,于是主人决定花费800元为它定制一副眼镜。戴上眼镜后,小狗从最初的歪头迷茫,逐渐适应,最终能够清晰地看到周围的世界,变得活泼起来,兴奋地摇着尾巴。 微新创想 这只...
21:16
微新创想:荣耀官方正式宣布成为张雪机车在世界超级摩托车锦标赛(WSBK)的首席战略合作品牌 这是中国首个与张雪机车达成合作的手机品牌 消息公布后引发了广泛关注和热烈讨论 荣耀全球首席营销官关海涛谈及张雪机车未来是否还能夺冠的话题时表示坦言无论如何都是中国荣耀 他强调赢是一种结果输也是一种故事无论如何都是荣耀都是中国荣耀 张雪本人在直播中亲口确认了这份合作并对...
21:16
微新创想:4月9日,微博话题“35岁孕妇吃冰箱剩菜后去世”登上热搜,引发了广泛的社会关注和讨论。据媒体报道,一名35岁的孕妇在食用冰箱中存放的剩菜后,不幸感染了李斯特菌,最终导致生命危险。其家人悲痛地表示,她离世的那天距离刚过完35岁生日仅两天。 医生指出,剩菜和生冷食物是李斯特菌滋生的高风险区域。这种病菌对环境的适应能力极强,能够在0到45摄氏度的温度范围...
21:16
微新创想: 抖音又跑出一个增长迅猛的白牌。今年1月,三资堂登顶抖音彩妆榜单第一,单月销售额破亿。而据有关报道,2025年,它已在主流电商渠道积累了超15亿元的销售额。仔细观察,可以看到三资堂一不靠大主播,二是通过切入小众细分赛道打爆单品。其背后仍是“厦门帮”的打法。但白牌都想“转正”,三资堂也不例外,尤其是在抖音升级推流机制和内容合规的当下,白牌面临着更严峻...