
谷歌近日发布了其最新的大型语言模型Gemini3,官方宣称该模型在多项学术基准测试中取得了领先地位。然而,由于厂商自评基准测试可能存在主观性,其真实能力仍需独立验证。为此,专业研究平台Prolific公司开展了一项大规模盲测研究,通过真实用户场景对比,客观评估Gemini3与其他AI模型的实际表现。此次评估吸引了26,000名参与者参与,采用严格的盲测机制,重点考察用户信任度、环境适应能力和沟通风格等关键应用指标。根据Prolific自主研发的”HUMAINE基准”测试结果,Gemini3Pro的用户信任得分从上一代产品的16%大幅跃升至惊人的69%,创下该机构有史以来的最高纪录。
在多项核心指标上,Gemini3均展现出超越前代的卓越表现。特别是在信任度、伦理规范和安全性方面,其表现明显优于前代产品Gemini2.5Pro——后者在用户信任测试中的得分仅为16%。更值得注意的是,Gemini3在性能与推理能力、交互与适应性表现、以及信任与安全三大评估维度中均位列第一,仅在沟通风格的细微表现上略逊于DeepSeek V3模型。测试还发现,Gemini3在涵盖年龄、性别、种族、政治倾向等22种不同用户群体中均保持稳定的高水平表现,充分证明了其广泛的适用性。在双盲对比测试中,用户选择Gemini3的倾向性提升了整整五倍。

Prolific公司联合创始人兼CEO Phelim Bradley指出,Gemini3的成功关键在于其跨场景的一致性表现,以及能够吸引多元用户群体的独特沟通风格。HUMAINE基准测试方法也揭示了当前AI评估体系存在的不足。通过让用户在不知情的情况下与两个模型进行多轮自然对话,测试能够更真实地反映模型在不同受众群体中的表现差异。Bradley强调,尽管AI技术评估不可或缺,但人类主观感受始终是衡量AI价值的重要维度,因为人类反馈能提供更丰富的应用洞察。
针对企业选择AI模型的实践建议,Bradley提出应建立更科学的评估体系。他建议企业不应仅关注单一任务上的峰值表现,而应重点考察模型在不同使用场景和用户群体中的稳定性与一致性。通过这种全方位的评估方法,企业才能找到真正契合自身业务需求的AI解决方案。划重点:🌟 Gemini3Pro在用户信任测试中取得69%的压倒性支持,较前代产品提升433%;📊 该模型在性能、交互和信任度等核心指标全面领先,尤其突出的是其在多元化用户群体中的均衡表现;🔍 Prolific倡导企业采用更科学的评估框架,从用户视角出发选择最合适的AI合作伙伴。
