MiniMax与华中科大开源VTP技术 显著提升DiT视觉生成性能

AI视觉生成领域迎来颠覆性技术革新。MiniMax与华中科技大学联合宣布开源其核心突破技术——VTP(Visual Tokenizer Pretraining,视觉分词器预训练),这一成果彻底改变了行业对性能提升的认知。在不触碰标准DiT(Diffusion Transformer)架构的前提下,仅通过优化视觉分词器这一关键组件,VTP实现了65.8%的端到端图像生成性能飞跃,将视觉分词器技术推向全新高度。这一创新首次证明,性能提升并非只能依靠堆砌大模型,而是可以通过优化核心”翻译官”实现倍增效果。

MiniMax与华中科大开源VTP技术 显著提升DiT视觉生成性能插图1

传统生成模型如DALL·E3、Stable Diffusion3主要依赖扩展主干网络提升性能,而VTP开创性地将视觉分词器——负责将图像转化为离散token序列的”视觉翻译官”——作为突破关键。其核心优势在于无需修改DiT的任何训练流程或结构,仅在预训练阶段对分词器进行针对性优化。通过使分词器输出的latent表征更易学习、更具通用性,VTP让下游DiT模型”事半功倍”。实验数据显示,在相同DiT配置下,采用VTP的系统在FID、CLIP Score等关键指标上显著超越基线模型。

VTP的突破不仅限于工程优化,更建立了全新的理论框架:首次明确建立了latent表征易学性与通用视觉表征能力之间的关联;首次证实分词器本身具备可扩展性,随着分词器容量、训练数据与预训练策略的增强,生成性能呈现清晰的scaling曲线;为行业开辟了”模型之外的性能增长路径”,未来或无需盲目扩大DiT参数,而是可通过优化分词器实现更高性价比的性能跃升。

MiniMax与华中科大开源VTP技术 显著提升DiT视觉生成性能插图2

目前,VTP代码、预训练分词器及训练配方已全面开源,完全兼容主流DiT实现。这意味着任何使用DiT架构的研究者或企业,均可”即插即用”VTP,以极低成本获得近70%的生成质量提升,尤其对算力有限的中小团队意义重大。AIbase认为,VTP的发布标志着AI生成技术进入”系统级优化”新阶段。当行业从”唯大模型论”转向”全链路协同提效”,MiniMax与华中科大的这次合作不仅是一次技术胜利,更是对”高效AI”发展理念的有力践行——真正的创新,往往不在于制造更大的引擎,而在于让每个零件都更聪明地协同工作。

代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1

最新快讯

2025年12月24日

11:16
近日有消息称,阿里巴巴正计划向AMD大规模采购4万至5万颗MI308AI芯片,这一举措凸显了其在人工智能领域的雄心壮志以及对前沿技术的持续投入。作为一款专为中国市场打造的合规AI芯片,AMD MI308的设计初衷正是为了应对日益增长的AI计算需求。据最新报道,该芯片已于今年7月获得美国政府的出口许可,与NVIDIA的H20芯片一同成为符合出口规定的产品。 与...
11:16
近日,知乎隆重揭晓了备受瞩目的“年度 AI 产品榜单”,全面回顾并深度剖析了 2025 年 AI 行业的最新发展趋势与关键演进路径。这一权威榜单由全球开发者与用户共同评选而出,最终豆包、DeepSeek、Gemini、Nano-banana 等国内外顶尖 AI 产品成功上榜,充分展现了行业创新活力与国际影响力。 在备受关注的“知友年度爱用”榜单中,字节跳动旗...
11:15
知名开源项目 Lima 成功发布了备受期待的 2.0 重大版本,标志着这款最初为 Mac 用户打造的 Linux 虚拟机环境工具,正式开启了向 AI 领域的战略转型。此次更新不仅带来了功能上的全面升级,更在安全性和扩展性方面实现了突破性进展,为 AI 开发者提供了前所未有的工作保障。 Lima v2.0 最引人注目的创新,是为 AI 开发构建了一套精密的“沙...
11:15
端侧AI赛道迎来新一轮资本热潮,面壁智能今日正式宣布成功斩获数亿元战略融资,投资方阵容强大,包括京国瑞、国科投资、中金保时捷基金、米聚资本以及和基投资联合领投。此次融资将专项用于加速端侧高效大模型的研发进程,并全面构建繁荣的AI生态体系,从而进一步巩固其在国内边缘智能领域的领先地位。 面壁智能作为国内最早系统布局端侧大模型的创新企业,已成功打造从理论创新到产...
10:58
微新创想12月24日重磅报道,手机系列更名已成为行业常态。2024年12月全新问世的荣耀GT系列,在推出荣耀GT与荣耀GT Pro两款机型后,正式完成品牌升级,更名为荣耀WIN系列。这一战略调整标志着荣耀在高端智能领域迈出重要步伐。 据荣耀官方微博最新消息,荣耀WIN系列搭载行业领先的AI绿洲护眼电竞屏,特别采用3D游戏专属防眩晕技术。该技术通过创新算法显著...
10:45
国产大模型领域再传捷报。MiniMax今日正式宣布开源其最新研发的编码与智能体专用大模型——M2.1,这款拥有100亿激活参数的稀疏架构模型,在多语言编程、真实代码生成及工具调用等关键场景中实现了前所未有的突破性进展。根据权威基准测试SWE-Multilingual与VIBE-Bench的实测数据,M2.1不仅大幅超越了同类开源模型,更在性能上超越了谷歌Ge...
10:45
近日,阿里巴巴云计算的 Qwen 团队重磅发布了两款创新性人工智能模型,专注于通过文本指令实现声音的生成与克隆。这两款模型不仅代表了语音合成技术的最新突破,更将为我们带来前所未有的声音定制体验。 Qwen3-TTS-VD-Flash 模型是此次发布的亮点之一,它赋予用户前所未有的声音创作自由。用户可以根据自己的需求,对声音的每一个细节进行精准定义,无论是情感...
10:45
数字头像生成公司 Lemon Slice 近期宣布成功斩获1050万美元种子轮融资,投资方阵容强大,涵盖 Matrix Partners、Y Combinator 以及 The Chainsmokers 音乐组合的知名企业高管。这家创新企业专注于为 AI 聊天机器人赋予视频交互能力,其核心技术 Lemon Slice-2 通过先进的扩散模型,仅需一张静态图片...
10:45
OpenAI 正在采用一种创新的"以攻促防"策略,全面提升其代理式网页浏览器 ChatGPT Atlas 的安全性能。面对日益严峻的网络威胁形势,OpenAI 研发团队构建了一套革命性的"自动化攻击者"系统,通过模拟真实黑客的攻击行为,对 ChatGPT Atlas 进行全天候的极限压力测试。这套系统的核心功能是专门针对对抗提示注入(Prompt Injec...
10:45
人工智能技术的飞速发展正推动着行业巨头加速将先进技术转化为具体的应用场景。近日,阿里巴巴正式发布AI教育应用“千问智学”,字节跳动则在海外市场悄然推出AI办公工具“AnyGen”,标志着这两家科技巨头在AI个性化服务和轻量化生产力领域的竞争进入全新阶段。 阿里巴巴推出的“千问智学”应用,基于其最新研发的学习大模型打造,内置智能辅导师“小千老师”,为小学至研究...
10:45
继Spotify Wrapped席卷全球音乐分享热潮后,人工智能领域也迎来了属于自己的"年终盛典"。OpenAI今日正式发布"Your Year with ChatGPT"(你的ChatGPT年度回顾)功能,为符合条件的用户打造一份极具个性化、视觉化且可社交分享的AI交互档案。这份年度回顾不仅记录全年使用数据,更通过主题画像、定制诗歌和趣味AI人格勋章,将人...
10:23
2025年12月24日,一则有趣的现象引发广泛关注:许多Z世代用户在使用微软Office软件时,将界面中标志性的3.5英寸软盘形“保存”图标误认为是自动售货机。这一令人啼笑皆非的误解源于Z世代群体普遍缺乏对软盘的实际接触经验。由于他们从未使用过这种曾经盛极一时的存储介质,其独特的圆形外观、透明的塑料外壳以及中央的取货口设计,在他们的认知中被巧妙地类比为自动售...