百度ERNIE-4.5-VL-28B-A3B-Thinking突破图像处理新高度

2025-11-13 09:33:17 AI动态 1 次阅读

百度近期震撼发布其尖端多模态人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking，这款创新AI凭借将图像深度整合至推理过程的技术突破，引领了行业新潮流。百度官方宣称，该模型在多项权威多模态基准测试中表现卓越，甚至偶有超越谷歌Gemini2.5Pro和OpenAI GPT-5High等商业顶尖模型的惊人表现。令人惊叹的是，尽管模型总参数量高达280亿，但通过精妙的路由架构设计，仅需30亿个活跃参数即可高效运行，使其能够在单台配备80GB GPU（如Nvidia A100）的设备上流畅运行。百度已慷慨采用Apache2.0许可证公开该模型，为开发者提供免费商业应用的可能性。不过需注意，百度所宣称的性能数据尚未获得第三方独立验证。

核心能力：开创性的”图像思维”与精准定位
该模型的独门绝技在于其创新的**”图像思维”（Image Thinking）**功能，使其能够在推理环节动态处理图像信息，精准捕捉关键细节。例如，模型可自动放大图像中的蓝色标志并准确识别文字内容，犹如内置专业图像编辑工具般智能。其他测试成果同样令人瞩目：模型能精确定位图像中的人物并返回坐标数据；通过分析电路图解决复杂数学难题；根据图表数据智能推荐最佳游览时间；对视频输入可提取字幕并实现场景与时间戳的精准匹配；更可调用外部工具如网络图像搜索，有效识别未知物体。这些能力标志着AI推理能力的重大飞跃。

行业背景与功能对比
尽管百度大力宣传ERNIE-4.5-VL-28B-A3B-Thinking在推理中整合图像处理的创新性，但该技术并非行业首创。早在2025年4月，OpenAI已在其o3和o4-mini模型中推出类似功能，允许AI将图像直接融入内部思维流程，并配备缩放、裁剪、旋转等原生视觉处理工具，为类智能体的推理与问题解决能力树立了新的行业标杆。百度此次发布，无疑是在这一前沿领域发起了新的竞争攻势，其30亿参数高效架构更彰显了技术创新的深度与广度。

2025年11月13日

10:47

百度ERNIE-4.5-VL-28B-A3B-Thinking突破图像处理新高度

最新快讯

2025年11月13日

虚幻引擎5.7重磅发布开放世界构建迎来革命性升级

瑞视生物获数千万元天使轮融资加速眼部疾病治疗研发

亚马逊AI企业助手智能采购提效降本

中国移动主导SEA-H2X国际海缆香港段登陆预计2025年全线贯通

索尼公布11月PlayStation Plus游戏阵容《GTA 5》回归Premium会员将享多款新作

小米集团完成2729.54万股回购股份注销优化资本结构

爱彼迎与Instacart合作试点杂货配送服务

传音控股拟赴港上市聚焦AI研发与全球市场拓展

保时捷加速中国智能化研发布局首款定制方案2026搭载

六氟磷酸锂价格飙升破15万/吨供应紧张需求回升致成本上涨

钙钛矿电池概念飙升中利集团3连板刷新纪录

Anthropic投500亿建AI基建预计2026年运营引领行业新格局