阿里国际数字贸易集团(AIDC)的AI研发团队AIDC-AI近日重磅推出全新一代多模态大语言模型——Ovis2.5,该模型提供9B和2B两种参数规模版本,旨在为全球开发者与企业在经济型视觉推理领域提供突破性解决方案。Ovis2.5以其在有限规模内展现出的卓越性能,成功刷新了多模态AI应用的技术标杆,成为业界瞩目的创新成果。
Ovis2.5的核心优势主要体现在以下四个方面:
首先,模型采用先进的NaViT视觉编码器技术,实现了原生分辨率感知能力。这一创新设计无需对图像进行任何损耗性平铺处理,即可精准保留图像的精细纹理与全局结构信息,确保了模型在视觉处理任务中始终能保持超高解析度与信息完整性。
其次,Ovis2.5内置深度推理引擎,支持可选的”思考模式”功能,部分借鉴了阿里Qwen3模型的先进技术架构。除了常规的线性思维链(CoT)推理外,该模型还具备自我检查与智能修订能力,并允许开发者根据需求灵活配置思考预算,显著提升复杂问题的解决精度与可靠性。
第三,在图表分析、文档理解(含表格与表单)及光学字符识别(OCR)等关键场景中,Ovis2.5在9B和2B两种参数规模下均达到行业领先水平。这一性能优势使其能够高效处理各类视觉数据,为实际应用场景提供强大的智能化支持。
最后,Ovis2.5展现出广泛的多模态任务处理能力,在图像推理、视频理解及视觉定位基准测试中均取得优异表现。这些成果充分证明了该模型强大的通用多模态处理能力,为开发者和企业构建智能化应用提供了理想选择。
此次Ovis2.5的发布,不仅彰显了AIDC-AI在多模态AI技术领域的持续创新实力,更通过在紧凑模型规模内实现高性能突破,为行业提供了一种兼具效率与易部署性的解决方案。该模型已全面开源至GitHub和Hugging Face等平台,将进一步促进全球AI社区的协作与知识共享。作为Ovis系列模型的又一重要里程碑,Ovis2.5的问世为多模态大语言模型的发展注入了全新活力,有望推动更多创新应用落地。