谷歌Gemini3破纪录登顶LMArena 超越GPT-5.1成最强AI

2025-11-19 09:01:02 AI动态 1 次阅读

谷歌母公司Alphabet正式推出Gemini3大型语言模型，凭借突破性的100万tokens上下文窗口刷新行业纪录，并首次实现文本、图像、视频与代码的原生多模态推理能力。这一里程碑式进展标志着AI交互进入全新维度，用户可跨越不同数据类型进行无缝智能交互。

官方数据显示，Gemini3Pro在GPQA Diamond研究生级测试中取得91.9%的卓越准确率，并在LMArena榜单上以1501Elo的优异成绩登顶，不仅超越GPT-5.1与Claude4.5等主流对手，更成为目前公开榜单中表现最强的模型。这一成就得益于全新Deep Think增强推理模式，通过创新的”思维签名”与”思考等级”系统，将复杂的推理链可视化产品化，在ARC-AGI-2测试中取得45.1%的顶尖得分，特别是在多步逻辑推理、事实准确性及科学图表理解等关键维度上实现SOTA突破。

为赋能开发者，谷歌同步发布Google Antigravity开发平台，首创”代理式编码”与”可视化编码”技术，使AI应用开发更加直观高效。实测数据显示，LiveCodeBench Pro Elo达到2439，Terminal-Bench2.0终端操作准确率高达54.2%，开发者可借助该平台自主完成从数据爬取到分析报告的全链路任务部署。

目前Gemini3已向Google AI Ultra订阅用户开放使用，未来几周将逐步扩展至Gemini应用、AI Mode搜索与企业级Vertex AI平台。谷歌强调，该模型基于自研TPU v6Pods进行训练，结合其90%的搜索市场份额和20亿”AI概览”月活跃用户，将显著加速AI技术从实验室走向实际生产应用进程，为各行各业带来智能化转型新机遇。