Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂

Google于12月17日正式发布了Gemini3Flash,一款定价仅为Claude1/5、GPT1/4的”轻量模型”。尽管体型小巧,其性能却令人惊叹:在编码能力上超越了Claude Sonnet4.5,而在推理和多模态处理方面更是全面碾压GPT-5.2,甚至在某些测试中与之互有胜负。更令人震惊的是,根据MMMU-Pro多模态评估效果,Gemini3Flash的表现甚至超过了自家的旗舰模型Gemini3Pro,以78%的成绩反超Pro的76.2%。这不仅是Flash系列诞生以来首次超越同代Pro模型,更彰显了其强大的技术实力。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图1

让我们直观感受一下Gemini3Flash的神奇之处:只需一句话,它就能生成完整的3D程序化房间动画;配合Resemble AI技术,可实现实时分析deepfake视频,将复杂的音视频取证数据转化为普通人易于理解的分析结果。在测试中,其多模态分析速度比2.5Pro快了整整4倍,能够在不影响关键工作流的前提下高效处理原始技术数据。

一个月前,Gemini3Pro和Deep Think的发布让Google重新夺回AI第一梯队的位置。Gemini3Pro登顶LMArena,Deep Think在ARC-AGI上创造了其他模型三倍的惊人成绩。发布以来,Gemini API日均处理量更是突破1万亿tokens。如今,Gemini3Flash的到来,终于补齐了Gemini3家族的最后一块拼图。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图2

但这次的Gemini3Flash与以往截然不同。过去我们对Flash的认知十分清晰:速度快、价格便宜,但能力有所妥协。想要速度,就必须接受智能上的让步。然而Gemini3Flash彻底打破了这一常规,它以轻量模型的价格,却打出了旗舰级的能力。1/5的价格,凭什么能打出台阶?让我们深入探究。

在与其他模型的对比中,Gemini3Flash的表现堪称惊艳。在博士级科学推理基准GPQA Diamond上,它以90.4%的成绩大幅领先Claude Sonnet4.5的83.4%,甚至接近GPT-5.2的92.4%。在多模态理解基准MMMU-Pro上,Flash以81.2%的成绩超越了GPT-5.2的79.5%,更是将Claude Sonnet4.5甩开十几个百分点。在人类最后考试 Humanity’s Last Exam上(无工具模式),Gemini3Flash以33.7%的成绩遥遥领先Claude Sonnet4.5的13.7%,差距接近20个百分点。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图3

编码能力同样不容小觑。在SWE-bench Verified上,Gemini3Flash以78%的成绩超过了Claude Sonnet4.5的77.2%,更值得一提的是,这是Flash系列首次超越自家3Pro的76.2%。当我们将价格因素纳入考量,这种反差就更加明显了:Flash的价格大约是Claude的1/5、GPT的1/4,却在多项关键指标上打平甚至领先。

如果说以前选择Flash意味着在速度、省钱和智能之间做出妥协,那么现在选择Flash则意味着既省钱又省心。那么一个问题自然浮现:既然如此强大,Gemini3Pro还有什么用?Google给出的答案是:Pro适用于极限推理场景,而Flash则更适合高频agent任务。Pro拥有Deep Think模式,适合需要深度推理的场景;而Flash则在效率、成本和速度上达到了最佳平衡。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图4

在效率层面,Gemini3Flash同样表现出色。根据Artificial Analysis的测试,Gemini3Flash比2.5Pro快3倍,处理日常任务时平均节省30%的token消耗。在定价方面,输入成本为$0.50/百万tokens,输出成本为$3/百万tokens,仅为3Pro的四分之一。可以说,Gemini3Flash在性能、成本与速度的权衡关系上,将最优边界推进到了新的高度。

Google官方宣称:”速度和规模,不必以牺牲智能为代价。”放在以前的Flash上可能只是句口号,但这次发布的数据有力地证明了这一点。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图5

Gemini3Flash的发布不仅是API层面的升级,它还将直接改变普通用户的日常体验。在Gemini App里,Gemini3Flash将替代原来的2.5Flash,成为新的默认模型。这意味着全球所有的Gemini用户,包括免费用户,都将自动升级到Gemini3级别的体验,无需付费,无需任何设置。升级后的App将提供三种模式供用户选择:基础模式、专业模式和极限模式,满足不同用户的需求。

在Google Search里,AI Mode的默认模型也将在全球范围内升级到3Flash。Google表示,得益于3Flash强大的推理和多模态能力,AI Mode现在能更精准地理解用户意图,处理更复杂、更具多重约束条件的问题,同时生成结构清晰、易于消化的回答。对于美国用户,Google还开放了更多选项,可以在AI Mode里选择”Thinking with3Pro”来获得更深度的帮助,图像生成模型Nano Banana Pro也向更多美国用户开放了。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图6

对于普通用户来说,这可能是感知最明显的一次升级。你打开Gemini,它已经是前沿级别的模型了;你在Google Search里问复杂问题,背后跑的是一个融入了顶级大模型能力的引擎。换句话说,免费用户现在用的默认模型,能力已经不输其他家的付费旗舰。

对于开发者而言,Gemini3Flash更是带来了革命性的变化。以前做agentic应用,想用旗舰级模型就得付旗舰级价格。Gemini3Flash彻底改变了这一局面。过去开发者面临两难选择:要么用快但笨的小模型,牺牲任务完成质量;要么用聪明但慢且贵的大模型,面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的agent场景里,这个取舍几乎是绑死的。Gemini3Flash提供了一个全新的选项:足够快、足够聪明、成本可控。

Gemini3Flash性能逆袭超Pro 轻量模型性价比炸裂插图7

在SWE-bench上78%的成绩说明它完全有能力处理复杂的编码任务,同时3倍于2.5Pro的速度让它能胜任对延迟敏感的实时场景,而1/5于竞品的价格让大规模部署成为可能。目前,Gemini3Flash已经在以下平台上线(preview):Google Cloud Platform、Google AI Studio和Gemini API。

在高频调用场景,Google还提供了配套的成本优化方案。Context Caching功能可以在重复token使用达到一定阈值时降低90%的成本;Batch API支持异步批量处理,成本可以再降50%,同时提供更高的调用配额。对于那些需要在生产环境里大规模跑agent任务的团队,这套组合拳相当有吸引力。

Flash的含义彻底改变了。Gemini3Flash的发布,某种程度上重新定义了”Flash”这个品类的含义。Flash,终于不只是快速和效率的代名词了。过去,Flash或者说轻量级模型的定位非常明确:用能力换取速度和成本优势。你选择Flash,就意味着接受它在智能上的折扣。但Gemini3Flash证明了另一种可能:当底层的基础模型足够强大时,轻量版本不一定要做太多能力阉割,它可以只是”更高效的满配版”。

Google在博客里提到,Gemini3Flash的核心模型能力已经强到一个程度:在很多任务上,关掉思考模式的3Flash,比开着思考模式的2.5版本表现还好。以前你需要牺牲速度来换准确,现在不用了。

这次发布也让Gemini3家族阵容正式成型:Gemini3Pro、Gemini3Deep Think、Gemini3Flash三个版本,覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度,用Deep Think;想要最强综合能力,用Pro;想要又快又好还便宜,用Flash。各取所需,不再是单选题。

从数据来看,Google在AI产品化这条路上跑得相当稳。Gemini App的月活已经突破6.5亿,开发者数量达到1300万,API调用量同比增长3倍。上季度到这季度,用户数从4.5亿猛增到6.5亿。目前,普通用户可以直接在Gemini App和Google Search的AI Mode中体验新模型;开发者可以通过Google AI Studio和Gemini API开始构建应用。

当Google用Flash模型1/5的价格打出旗舰级能力,Flash这个品类的想象空间被彻底打开了。

最新快讯

2025年12月19日

16:54
近日,海南岛上一则令人惊叹的幸运故事迅速引爆网络:一位姓福的先生在出差途中,仅用4元人民币购买彩票,竟奇迹般地中得638万元一等奖!这一天降之喜瞬间点燃了公众的讨论热情,成为街头巷尾热议的话题。据知情人士透露,福先生当时正因公出差,在某个偶然的瞬间被买彩票的想法击中,于是随手投入了4元。然而命运之神却给了他一个天大的玩笑——这看似微不足道的4元,竟摇身一变成...
16:51
2025年12月16日,备受瞩目的苏格兰羊绒品牌Begg x Co正式宣布与知名零售集团美最时中国达成深度战略合作。这一重要举措标志着Begg x Co在中国市场的战略布局迈入全新篇章。据悉,双方将整合各自优势资源,共同开拓中国市场,推动品牌影响力与销售业绩的双重提升。 同日,Begg x Co天猫官方旗舰店盛大上线,为品牌在中国市场的线上销售渠道再添重要砝...
16:51
2025年12月18日,兰州轨道交通在官方App推出300元电子计次票销售活动时,遭遇了系统并发量激增的突发状况。由于服务器处理能力不足,导致部分用户的支付金额出现严重换算错误,系统显示需支付金额从3万元到惊人的300万元不等,引发广泛关注和用户热议。 面对这一紧急情况,兰州轨道公司反应迅速,在事件发生后立即启动应急预案。技术团队连夜奋战,于当晚23:55前...
16:51
2025年12月17日,小天才官方就旗下电话手表的功能调整正式作出回应。澎湃新闻报道,公司已全面下线“运动赞”功能,并同步移除备受争议的“等级”应用。这一系列举措旨在解决近期用户集中反映的功能设计问题,进一步强化产品在儿童安全守护方面的核心价值。 此前,该功能上线后引发了未成年人过度追逐点赞、账号交易泛滥等一系列负面现象。有用户反映,部分高等级账号被戏称...
16:51
2025年12月19日,OpenAI首席研究官马克·陈在内部会议上罕见地揭露了公司发展历程中的关键转折点。他透露,OpenAI曾在多个历史性时刻启动了"红色警报"机制,通过集中全球资源全力冲刺核心研发目标。据陈博士描述,最近一次触发这一最高级别警报的直接导火索,是谷歌Gemini 3模型在多项关键指标上超越现有ChatGPT产品,迫使OpenAI创始人伊隆·...
16:51
2025年12月19日,韩国知名化工巨头LG化学正式向外界宣布了一项重大战略举措——提交石化业务重组计划。这一消息通过LG化学当日发布的官方声明得到确认,但公司方面并未透露任何具体细节。据悉,此次重组将全面调整石化部门现有的组织架构与运营模式,核心目标在于帮助企业在快速变化的市场环境中保持领先地位,并通过优化资源配置显著提升整体竞争力。 根据声明内容,LG化...
16:51
2025年12月19日,经纬恒润正式宣布,其自主研发的L4级自动驾驶系统在架构设计上展现出向Robotaxi领域延伸的巨大潜力。作为L4技术的深耕者,经纬恒润凭借多年的技术积累,已成功实现封闭园区内全无人常态化运营,并陆续推出包括HAV(高级自动驾驶乘用车)、Robotruck(自动驾驶卡车)、Robobus(自动驾驶公交车)在内的多款创新产品。这些产品的成...
16:51
2025年12月19日,谷歌正式推出Gemini AI生成视频检测功能,旨在帮助用户有效识别由其自家AI工具创作的视频内容。这一创新功能通过App或网页版提供便捷操作,用户只需上传不超过100MB、时长控制在90秒以内的视频,并输入问题“是否由AI生成”即可触发智能检测。该功能的核心技术依托于SynthID数字水印技术,能够精准识别谷歌系AI工具生成的内容,...
16:51
2025年12月19日,上海市市场监督管理局正式公布了2025年度第三批地方标准制修订项目计划,共计41项重要标准项目。在这批计划中,新增推荐性标准达到33项,而修订项目则有8项,预计完成周期为两年。这些标准项目覆盖了多个前沿领域,包括数字经济、农业生产、人工智能教育、公共数据授权运营、动力电池应用以及智算中心建设等,展现了上海在科技创新和产业升级方面的坚定...
16:51
2025年12月15日,全球健康科技领域的领军企业皇家飞利浦正式宣布达成一项具有里程碑意义的收购协议,目标公司为在冠状动脉增强成像、血管造影生理功能评估以及AI医学影像应用领域取得突破性进展的SpectraWAVE公司。此次战略并购标志着飞利浦在心血管疾病诊断解决方案领域的重大布局,SpectraWAVE的核心技术将无缝融入飞利浦现有的医学影像平台,显著增强...
16:48
罗永浩近日通过个人微博正式官宣,备受瞩目的2025年度科技创新分享大会门票将于12月22日中午12:00在大麦App开启抢购通道。这场科技盛宴将于12月30日在上海西岸国际会展中心隆重举行,地点位于徐汇区这一上海科创版图的核心区域。 本次大会门票将严格执行实名制购票规则,所有售出的门票均不可转让。观众在入场时,工作人员将严格核验购票信息与现场身份证明的一致性...
16:48
联想与字节跳动在 AI 手机领域的深度合作,正引发科技行业的广泛关注。据最新媒体报道,字节跳动正积极与 vivo、联想、传音等硬件厂商建立战略合作,计划在这些设备上预装 AIGC 插件,旨在打造全新的用户使用体验,并构建高效的技术获取入口。这一创新举措有望打破 AI 技术在实际应用中的被动局面,为双方开拓更广阔的市场空间。 据悉,联想集团与字节跳动的豆包 A...