
在2025世界计算大会上,昆仑元 AI 隆重发布了基于昇腾(Ascend)平台的全模态融合模型——BaiZe-Omni-14b-a2b。这一创新模型集成了强大的文本、音频、图像和视频理解与生成能力,凭借其突破性的技术架构,为多模态应用的发展注入了强劲动力。BaiZe-Omni-14b-a2b 采用模态解耦编码、统一跨模态融合和双分支功能设计,实现了多模态数据的深度整合与高效处理,为用户带来前所未有的智能体验。
BaiZe-Omni-14b-a2b 的设计流程科学严谨,涵盖了输入处理、模态适配、跨模态融合、核心功能和输出解码等多个关键步骤。为了进一步提升计算效率,该模型在 MoE+TransformerX 架构中创新性地引入了多线性注意力层和单层混合注意力聚合层,确保了大规模全模态应用的稳定运行。其双分支设计不仅显著增强了模型的理解和生成能力,更使其能够高效处理多达10类复杂任务,展现出卓越的多模态内容生成实力。
在模型训练方面,昆仑元 AI 精心准备了海量高质量数据。训练数据覆盖了超过3.57万亿 token 的文本数据、30万小时以上的音频数据、4亿张图像以及超过40万小时的视频数据,确保了单模态数据的纯净度和跨模态数据的精准对齐。通过差异化的数据配比策略,模型在不同训练阶段均实现了性能的稳步提升,为最终的高性能表现奠定了坚实基础。

BaiZe-Omni-14b-a2b 在性能方面表现卓越,特别是在多模态理解的核心指标上达到了行业领先水平。文本理解准确率高达89.3%,在长序列处理场景中,其32768token 文本摘要任务的 ROUGE-L 得分更是达到了0.521,显著超越了行业主流模型 GPT-4 的0.487。此外,该模型还支持多语言文本生成以及图像、音频和视频的多模态生成,充分展现了其强大的综合能力。
划重点:🌐 ** 全模态能力 **:BaiZe-Omni-14b-a2b 具备强大的文本、音频、图像和视频理解与生成能力,实现了多模态数据的无缝融合。📈 ** 性能突出 **:模型在文本理解和长序列处理上表现优异,ROUGE-L 得分显著领先同类模型,彰显了其卓越的技术实力。💡 ** 多领域应用 **:该模型将为智能客服、内容创作等多个领域提供强大的技术支持,推动 AI 技术的创新发展,开启智能应用的新纪元。
