在国际机器学习大会(ICML)刚刚落下帷幕之际,快手与上海交通大学联合发布了一款革命性的多模态生成理解模型——Orthus,凭借其自回归 Transformer 架构,在图文转换领域展现出惊人的生成能力,并已正式向公众开源。这款模型的核心优势在于其无与伦比的计算效率与强大的学习性能,研究数据显示,在极低的计算资源投入下,Orthus 在多项图像理解指标上已超越包括 Chameleon 和 Show-o 在内的现有混合理解生成模型。特别是在文生图生成的 GenEval 指标测试中,Orthus 的表现更是超越了专为该任务设计的扩散模型 SDXL,充分证明了其卓越的技术实力。
Orthus 不仅擅长处理文本与图像的交互关系,更在图像编辑、网页生成等实际应用场景中展现出巨大的潜力。其架构设计堪称精妙绝伦,以自回归 Transformer 作为核心网络骨架,并配备了针对文本和图像的专用生成头,这种创新布局有效解耦了图像细节建模与文本特征表达,使 Orthus 能够更专注于捕捉文本与图像之间的复杂关联。从技术层面来看,Orthus 由多个关键组件协同工作,包括文本分词器、视觉自编码器以及两个模态嵌入模块,通过将文本与图像特征映射到统一表示空间,极大提升了主干网络处理跨模态依赖关系的效率。在推理阶段,模型能够根据特定标记自回归地生成下一个文本 token 或图像特征,展现出极高的灵活性与适应性。
这些前瞻性的设计不仅巧妙地调和了端到端扩散建模与自回归机制之间的矛盾,更有效减少了图像离散化过程中可能造成的信息损失。从技术演进的角度看,Orthus 可视为何恺明教授在图像生成领域提出的 MAR 模型的多模态拓展版本,成功将单模态技术突破延伸至更广阔的跨模态场景。快手与上海交通大学的此次深度合作,为多模态生成模型的发展开辟了全新路径,其创新成果必将引发业界与学界的广泛关注与深度探讨,为人工智能技术的未来演进注入新的活力。