
百度近期震撼发布其尖端多模态人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking,这款创新AI凭借将图像深度整合至推理过程的技术突破,引领了行业新潮流。百度官方宣称,该模型在多项权威多模态基准测试中表现卓越,甚至偶有超越谷歌Gemini2.5Pro和OpenAI GPT-5High等商业顶尖模型的惊人表现。令人惊叹的是,尽管模型总参数量高达280亿,但通过精妙的路由架构设计,仅需30亿个活跃参数即可高效运行,使其能够在单台配备80GB GPU(如Nvidia A100)的设备上流畅运行。百度已慷慨采用Apache2.0许可证公开该模型,为开发者提供免费商业应用的可能性。不过需注意,百度所宣称的性能数据尚未获得第三方独立验证。

核心能力:开创性的”图像思维”与精准定位
该模型的独门绝技在于其创新的**”图像思维”(Image Thinking)**功能,使其能够在推理环节动态处理图像信息,精准捕捉关键细节。例如,模型可自动放大图像中的蓝色标志并准确识别文字内容,犹如内置专业图像编辑工具般智能。其他测试成果同样令人瞩目:模型能精确定位图像中的人物并返回坐标数据;通过分析电路图解决复杂数学难题;根据图表数据智能推荐最佳游览时间;对视频输入可提取字幕并实现场景与时间戳的精准匹配;更可调用外部工具如网络图像搜索,有效识别未知物体。这些能力标志着AI推理能力的重大飞跃。
行业背景与功能对比
尽管百度大力宣传ERNIE-4.5-VL-28B-A3B-Thinking在推理中整合图像处理的创新性,但该技术并非行业首创。早在2025年4月,OpenAI已在其o3和o4-mini模型中推出类似功能,允许AI将图像直接融入内部思维流程,并配备缩放、裁剪、旋转等原生视觉处理工具,为类智能体的推理与问题解决能力树立了新的行业标杆。百度此次发布,无疑是在这一前沿领域发起了新的竞争攻势,其30亿参数高效架构更彰显了技术创新的深度与广度。

