

等了很久、很久、很久。也期待了很久、很久、很久的Gemini3Pro,终于在昨天晚上,正式上线了。此前关于这款大模型的传闻屡见不鲜,但每次都被证明是误传。尤其是大模型竞技场中的lithiumflow和orionmist,曾被广泛猜测为Gemini3Pro,网络上充斥着各种酷炫的SVG图示,声称展示了该模型的性能水平。然而从9月到10月,再到11月过半,这两款模型逐渐淡出公众视野。随后,名为riftrunner的Gemini3候选模型出现,再次被网友称为Gemini3,让无数人的心绪始终处于躁动不安之中。

讲真,我曾在无数场合盛赞曾经的Gemini2.5Pro,它是最有人味、文笔最棒、创意最佳的大模型。尽管近期GPT5.1-Thinking在人文表现上略有超越,但我依然钟爱它。如今,相隔238天,Gemini3Pro终于问世。经过实测,可以说这是2025年最强大的模型。即便我已对其抱有极高期待,Google的表现依然令人惊叹。目前,在所有主要Arena排行榜中,Gemini3Pro几乎独占鳌头,堪称AI领域的王者。

现在,Gemini3Pro已可在AI Studio中使用,网址为https://aistudio.google.com/。Google Gemini网页版也已上线。说实话,Gemini3pro的跑分表现令人震撼,几乎所有指标均遥遥领先,唯有软件工程能力稍逊于GPT-5.1和CLaude Sonnet4.5,其他方面堪称断层式领先。第一眼看到这张表格数据时,我甚至怀疑自己是否因熬夜过度导致视力下降。在著名的Humanity’s Last Exam评测集上,Gemini2.5Pro得分为21.6%,Claude Sonnet4.5为13.7%,GPT-5.1为26.5%,而Gemini3Pro则达到37.5%,开启工具使用后更攀升至45.8%。但这还不是最惊人的部分。

在MathArena Apex这个堪称超难奥赛压轴题专场的评测中,GPT-5.1仅得1分,Claude Sonnet4.5得1.6分,Gemini2.5Pro得0.5分,而Gemini3Pro却拿到23.4分。当时我简直不敢相信自己的眼睛,这个结果真的如此离谱。这就像小学生还在掰手指头算加减法,而旁边的Gemini3已经开始用微积分徒手设计火箭了。在ScreenSpot-Pro这个专门折磨多模态模型的GUI Grounding评测集上,GPT-5.1仅得3.5%,Claude Sonnet4.5得36.2%,Gemini3Pro却达到72.7%。Gemini3Pro在电脑操作方面展现出毁灭级实力,能精准识别屏幕上的每个按钮、图标和文字,未来将成为AI操作电脑的终极神器。

然而,这些成就都无法体现Gemini3Pro最令人惊叹的能力——前端代码能力。直接用一句话描述需求,Gemini3Pro就能迅速生成完整代码。比如设计一个体素艺术场景,十几秒内就能完成。虽然奶龙的设计略显抽象,但交互效果极为流畅。随手开发台球游戏,双人对局和真实物理引擎令人震惊,仅凭一句话描述,完成度却远超预期。前端开发案例同样令人赞叹,无论是模拟黑胶唱片的音乐播放器,还是支持绘制、撤销、导出GIF的像素画板,Gemini3Pro都能轻松应对。

更令人惊叹的是图转代码的复刻能力。上传网页截图并指定样式,二十几秒后就能生成完整前端网页。虽然部分细节(如字体)有所调整,但整体布局和样式已相当出色。我曾与众多前端开发者合作,能做出这种水平的代码,他们往往需要反复调试。另一个案例是复刻可编辑的前端界面,只需简单描述,Gemini3Pro就能实现复杂功能。最离谱的是我随口提出的Windows风格Web OS项目,近两分钟生成的代码块中,大部分功能(包括可玩的终端和游戏)竟然全部实现!

Gemini3Pro的能力令人瞠目结舌,连奥特曼都罕见现身为Google庆祝。我们这一代人或许站在了AI时代的全新起点。从此,前端开发可能不再那么重要,框架调优也变得次要,关键在于能否清晰、具体、生动地描述需求,将脑海中的创意转化为明确指令。品味和表达能力将成为核心竞争力。当我们一边吐槽、一边兴奋、一边测试demo时,未来已悄然来临。238天的等待终值,所有不安和质疑都化为最好的见证。Google依然是AI领域的王者,让我们开始创造吧。







