腾讯开源WeChat-YATT大模型训练库 攻克多模态训练两大核心瓶颈

腾讯近期正式发布了基于Megatron-Core和SGLang/vLLM自主研发的大模型训练库——WeChat-YATT(Yet Another Transformer Trainer),内部代号为gCore。这一创新训练库专注于强化学习与多模态模型训练,旨在为开发者打造一套易扩展、简洁高效且高度可靠的大模型训练解决方案。WeChat-YATT通过定制化的并行计算策略,能够精准应对大尺寸模型、长序列输入及海量数据集等复杂训练场景,成功攻克了微信内部多个关键业务场景的技术难题,显著提升了大模型训练的整体效率。该工具为研究人员和开发者提供了灵活且可扩展的技术平台,有望推动多模态与强化学习领域的创新发展进程。

WeChat-YATT重点解决了大模型分布式训练过程中的两大核心技术瓶颈。首先是多模态场景下的可扩展性瓶颈问题。随着图像、视频等多模态数据规模的持续增长,传统架构中单一控制器管理数据的模式容易引发通信和内存瓶颈,导致系统吞吐量受限甚至训练流程异常中断。WeChat-YATT通过引入并行控制器(Parallel Controller)的并行管理机制,有效分散了系统压力,大幅提升了系统的可扩展性和稳定性,从而更好地应对多模态、大数据量的复杂应用场景需求。其次是动态采样与生成式奖励计算下的效率短板。在需要频繁动态采样或生成式奖励计算的训练流程中,模型频繁切换和”长尾”任务容易产生大量额外开销,导致GPU算力无法充分利用,严重影响整体训练效率。WeChat-YATT通过部分共存策略和异步交互机制,大幅减轻了模型切换损耗和长尾任务影响,实现了训练过程中的高吞吐量和高资源利用率,为大规模RLHF任务的高效迭代提供了有力支撑。

针对不同业务场景的差异化需求,WeChat-YATT支持全员共存和部分共存两种资源放置模式,以最大化提升集群资源利用率。全员共存模式采用串行调度机制,Actor Rollouts、GenRM(生成式奖励模型)与Train依次串行执行。每个角色完成任务后主动释放计算资源,系统随即加载下一个任务所需模型。该策略适用于绝大多数常规训练场景。值得注意的是,在每个阶段,相关组件均可独占全部GPU资源,这极大缩短了资源空闲”气泡”时间,显著提升总体训练吞吐量和效率。部分共存模式下,Actor Rollouts与GenRM独立部署,并通过异步方式进行高效交互。Actor训练阶段占用全部GPU资源,在Rollouts生成阶段释放GPU资源并唤醒Actor Rollouts及GenRM两大组件协同工作。系统通过动态负载评估进行资源分配与均衡,当Rollouts生成完毕后,这两者释放资源,Actor随之重新加载到GPU上进入下一轮训练流程。部分共存模式特别适合Rollouts与GenRM需要高频交互、动态采样的复杂任务场景。

腾讯开源WeChat-YATT大模型训练库 攻克多模态训练两大核心瓶颈插图1

WeChat-YATT还具备多项技术特色。在内存利用方面,项目采用并行控制器架构,有效降低了单节点内存消耗,更适合多模态场景下的大模型训练,提升了系统扩展性和稳定性。在GenRM支持方面,针对生成式奖励模型场景实现了不同的资源放置策略,用户可根据具体场景选择最优的训练方案。智能检查点策略是另一大亮点。WeChat-YATT支持异步Checkpoint保存,并针对微信业务场景特点,根据调度流程实现断点自动保存,进一步保障了训练安全性和高可用性。此外,系统在训练过程中实现了各个数据并行组间的负载均衡,有效减少资源空闲时间,显著提升整体训练吞吐量。

这一训练库的发布标志着腾讯在大模型技术基础设施建设方面取得重要进展,也为业界提供了处理复杂多模态训练场景的有效解决方案。WeChat-YATT凭借其创新的技术架构和实用的功能特性,有望成为多模态与强化学习领域的重要技术参考,推动大模型训练技术的持续进步与发展。

最新快讯

2025年08月19日

18:20
微新创想8月19日重磅消息,备受期待的REDMI Note15 Pro系列将于8月21日晚19:00正式揭幕,届时将同步推出REDMI Note 15 Pro与REDMI Note 15 Pro两款旗舰机型。今日,REDMI再度掀起预热热潮,为即将登场的新机蓄势待发。 REDMI Note15 Pro系列将创下小米品牌历史性突破——成为首款搭载400%大音量...
18:20
上海市经济和信息化委员会携手多部门联合发布《上海市加快推动"AI+制造"发展的实施方案》,为人工智能在制造业的深度应用描绘了清晰的技术路径与发展蓝图。该方案不仅明确了上海在"AI+制造"领域的战略方向,更提出了具体的技术突破目标,旨在推动人工智能与制造业的深度融合。 方案特别强调基础模型在多个维度的技术突破。在多模态算法创新方面,上海将着力提升AI模型对流体...
18:20
Mozilla 今日正式将 Firefox142.0版本推送到稳定发布通道,预计将于下周二全面向全球用户开放。此次更新虽然未带来颠覆性的功能革新,却在底层支持与开发者工具方面进行了重要调整,预计将引发业界对浏览器扩展与本地AI集成的深度讨论。 Firefox142属于Mozilla每月例行发布的主版本更新,核心目标在于提升系统稳定性与功能完善度。值得关注的三...
18:20
Vercel 近期重磅宣布,备受瞩目的 AI 前端开发工具 v0 正式进军移动端市场,即将推出专属 iOS 应用程序。目前官方已全面开启候补名单注册通道,广大开发者和技术爱好者可通过访问官方网站,第一时间加入等待列表,抢先体验这一革命性的 AI 开发利器。Vercel 以“Anything. Anyone. Anywhere.”为核心宣传语,生动诠释了 v0...
17:11
近日,河北张家口崇礼区上演了一场惊心动魄的救援行动。一位年近七旬的老人在山间采蘑菇时遭遇短尾蝮蛇袭击,右手中指不幸被咬,生命一度悬于一线。这起事件不仅凸显了野外活动的潜在风险,也引发了社会对蛇伤救治的广泛关注。 事发当天上午,这位老太太独自前往崇礼区窄面沟村附近的山林,本想收获一篮新鲜的蘑菇。然而,就在她专注于采摘时,一条潜伏的短尾蝮蛇突然发动攻击,咬住了她...
17:11
微新创想8月19日重磅消息,据知名数码博主数码闲聊站最新爆料,有专业设计师基于可靠信息绘制了iPhone 17e的外观渲染图,并首次公开了该机型的详细配置参数。通过对比上一代iPhone 16e,我们发现iPhone 17e最引人注目的变革在于屏幕设计,它将全面升级为灵动岛形态,这标志着苹果手机正式告别刘海屏时代,开启全新交互体验。 作为iPhone 17系...
17:11
江西南昌县罗先生近日在社交平台公开维权,直指前妻隐瞒先天性双子宫及单侧肾缺失的隐疾,并声称这段婚姻给家庭带来沉重负担,因此要求前妻退还部分黄金彩礼。一审法院经审理后作出判决,要求女方返还4万元现金及一枚钻戒,罗先生对此结果并不认可,随即提起了上诉。 根据罗先生分享的二审判决书关键内容显示,法院经过慎重审理后认为,罗先生要求全额返还80%彩礼的主张缺乏法律支持...
17:11
2025年8月18日 上海——备受瞩目的“创客上海2025”暨第十届“创客中国”上海中小企业创新创业大赛复赛阶段圆满收官,这场创新创业的盛宴汇聚了全市18个赛点、7大核心赛道,700余个全国甄选的优质项目同台竞技,上演了一场精彩绝伦的科技创新"硬核"对决 赛道深耕赋能升级 区域特色铸就创新沃土 人工智能赛道多点开花 场景落地加速各赛点全力打通技术落地"最后一...
16:07
8月18日,NBA超级巨星斯蒂芬·库里正式拉开2025年中国行的序幕,首站选择山城重庆作为起点,整个活动为期三天,主会场设在重庆国际博览中心。刚结束篮球训练营的库里便马不停蹄,当晚便赶赴重庆市规划展览馆,见证了一场融合科技与创意的震撼盛宴——由5000架无人机组成的空中光影秀。 夜幕降临,5000架无人机腾空而起,在重庆璀璨的夜空中精准勾勒出篮球命中篮筐...
16:07
中山大学、鹏城实验室与美团联合研发的X-SAM图像分割模型近日正式问世,这款创新性多模态大模型在图像分割领域实现重大突破,将传统Segment Anything Model(SAM)的"分割万物"能力升级为"任意分割",大幅拓展了模型的适应性与应用范围。相较于传统SAM仅能接受单一视觉提示输入的局限性,X-SAM通过突破性的视觉定位分割(VGS)任务框架,实...
16:07
苹果在WWDC2025上正式宣布将ChatGPT集成到其生态系统后,正积极拓展AI编程助手的选择,计划为Xcode开发环境引入Anthropic的Claude AI助手。这一举措将为全球开发者带来更多元化的AI编程体验。据9to5Mac对Xcode26beta7代码的深入分析显示,苹果已在新的"智能"功能中多次提及对Anthropic账户的内置支持,特别是针...
16:07
路透社最新消息确认,人工智能搜索引擎领域的后起之秀 Perplexity 近期向科技巨头谷歌抛出了一份价值 345亿美元的惊人收购方案,目标直指其核心业务——浏览器 Chrome。这一果断行动无疑将谷歌推至风口浪尖,尤其是在其正面临严峻反垄断调查的关键时刻。 Perplexity 在公布收购方案时详细阐述了多项核心承诺。首先,该公司明确保证将永久维持 Chr...