OpenAI GPT-4 数学表现最佳人工智能幻觉排名解析 - 微新创想

2023-08-23 14:45:30 互联网 33 次阅读

微新创想(idea2003.com) 8月18日讯：在科技行业人工智能模型的性能对比中，微软支持的OpenAI GPT-4在数学领域表现卓越，而Meta的Llama 2则位居中游，Anthropic的Claude 2在自我认知局限方面表现突出，Cohere AI则因产生最多幻觉和自信错误答案而备受争议。这份周四发布的报告由Arthur AI研究人员撰写，Arthur AI是一家专注于机器学习监测的平台。该研究正值人工智能系统误导信息问题引发广泛争议，同时生成式人工智能正处于高速发展阶段。

Arthur AI联合创始人兼CEO Adam Wenchel强调，这是首份全面评估幻觉率的报告，而非简单罗列LLM排行榜数据。当大型语言模型捏造信息却表现得如同真实陈述时，就会产生AI幻觉。例如今年6月，有用户发现ChatGPT在纽约联邦法院文件中引用了”虚假案例”，相关律师可能面临处罚。Arthur AI研究人员通过组合数学、美国总统及摩洛哥政治领导人等测试场景，设计了一系列需要多步骤推理的问题，以评估模型性能。

在多项测试中，OpenAI GPT-4表现最为出色，其幻觉现象较GPT-3.5版本减少33%至50%，特别是在数学问题上。相比之下，Meta Llama 2的幻觉率高于GPT-4和Anthropic Claude 2。虽然GPT-4在数学测试中位居第一，Claude 2紧随其后，但在美国总统类别测试中，Claude 2凭借高准确率反超GPT-4。在摩洛哥政治问题测试中，GPT-4再次领先，而Claude 2和Llama 2则倾向于回避回答。

第二个实验显示，GPT-4在使用警示语方面比GPT-3.5提升50%，这从用户反馈中印证了其更谨慎的回应方式。然而Cohere AI模型在所有回答中均未使用警示语。研究特别指出，Claude 2在自我意识方面表现最佳，能够准确评估自身知识边界，仅回答有数据支持的问题。

Cohere AI对此结果提出异议，发言人表示”其检索自动生成技术未被全面测试”，该技术对企业验证信息来源具有重要价值。Wenchel建议用户和企业应根据实际工作负载评估模型性能，强调”了解LLM在特定任务中的表现至关重要”。他指出许多基准测试仅关注LLM单一指标，而实际应用场景远比测试环境复杂，因此掌握LLM在实际应用中的表现才是关键。

Arthur AI研究报告：https://www.arthur.ai/gap

2026年02月11日

02:56

Alphabet欧洲发债110亿美元全球债务突破300亿

微新创想：2026年2月11日美国科技巨头Alphabet在欧洲市场完成债券发售累计募资110亿美元此举使其2026年以来全球债券发行总额达300.1亿美元发债地点为欧洲主要金融中心发行主体为Alphabet Inc. 资金将用于一般公司用途包括回购股票偿还到期债务及营运资本补充此次发债反映其在低利率环境下优化资本结构的战略意图亦显示国际投...

01:51

特斯拉任命乔·沃德为全球销售负责人强化国际市场协同与交付效率

微新创想：2026年2月11日特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人此次调整自即日起生效公司表示此举旨在整合区域销售资源强化全球市场协同与交付效率乔·沃德自2019年起在特斯拉任职历任英国德国等多国销售高管具备丰富的国际市场管理经验公司强调此次任命不涉及组织架构大规模变动原有区域销售团队保持稳定运行以确...

00:13

吉利银河M7米兰首秀东方美学插混SUV续航突破1730km

微新创想：2026年2月10日，吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型，车身加长60mm，风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计，彰显出中国智造的独特魅力。搭载EM-i插混系统，该车型提供两种电池版本，纯电续航最高可达225km。满油满电综合续航达到1730km，大幅提升了用户...

00:13

奥迪2026年在华推出8款新车油电双线加速转型

微新创想：2026年2月，奥迪在中国市场启动入华以来规模最大的产品攻势，全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式，涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。微新创想：行动旨在应对豪华车市场电动化转型趋势，延续油电并进策略，依托PPC燃油平台与PPE纯电平台，强化本土化智能座舱与驾驶辅助系统适配。微新...

00:13

《GTA6》第三支预告片或于8月初突袭发布强化财报预期

微新创想：据Insider Gaming编辑Tom Henderson在2月7日的播客中透露，R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注，更旨在配合Take-Two当季的财报电话会议，通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...

00:13

《生化危机5》重制版或2月13日State of Play公布引猜测

微新创想：2026年2月10日卡普空《生化危机5》Xbox Series版现身ESRB官网标注含“内购”内容暗示为完整重制版 2026年2月10日卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网并标注了“内购”内容这一举动引发了玩家对游戏版本的猜测认为可能是完整重制版虽未列PS5版但索尼定于2月13日举行State of...

2026年02月10日

23:12

深圳第零智能港股IPO申请提交拓展融资渠道助力智能硬件与AI终端发展

微新创想：2026年2月10日，深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳，拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。递表标志着该公司迈出港股上市关键一步，旨在拓展资本市场融资渠道，支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业，第零智能近...

23:12

摩根大通：AI冲击被高估软件股估值低位迎反弹机遇

微新创想：2026年2月10日，摩根大通策略师Dubravko Lakos-Bujas团队指出，市场对AI短期颠覆软件行业的担忧不切实际，软件股正迎来反弹契机该行认为，近期无差别抛售已导致板块估值处于历史低位，叠加持仓出清、悲观情绪过度及基本面稳健，风险平衡转向上行建议投资者增配高质量、抗AI颠覆能力强的软件股此次调整源于市场担忧AI工具冲击传统Saa...

23:12

谷歌推出隐私搜索结果删除工具可清除证件号及露骨图像

微新创想：2026年2月10日，谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力，让用户能够更方便地管理网络上的个人信息。用户可以通过“关于你的搜索结果”页面，提交驾照、护照号、社安号（SSN）等敏感信息。系统会自动扫描互联网，查找包含这些信息的网页链接，并通知用户。用户可以申请移除对应的搜索结果，从而减少个人信...

22:38

AOC发布24G4ZR与27G4ZR 240Hz Fast IPS电竞显示器

微新创想：2026年2月10日，AOC爱攻正式发布24G4ZR与27G4ZR两款电竞显示器。这两款显示器分别采用了23.8英寸和27英寸的Fast IPS面板，为玩家带来更宽广的视野和更清晰的画质。它们的原生刷新率达到了240Hz，同时支持超频至260Hz，确保在高速游戏场景中流畅无拖影。两款显示器的分辨率均为1920×1080，满足大多数玩家的日常使用和...

22:38

数字人民币智能合约首单落地建筑行业实现工资精准实时发放

微新创想：2月6日，全国首单数字人民币智能合约在四川成都建筑行业工资发放场景成功应用。此次应用标志着数字人民币在实际场景中的深度落地，为农民工工资支付提供了全新的解决方案。由中国人民银行数字货币研究所、四川省住房和城乡建设厅以及成都高新区管委会共同见证，一智科技与交通银行四川分行等机构携手推进，实现了对104名工人的精准薪酬发放，总金额超过100万元。所有...

22:08

春运铁路客流突破1亿人次小年单日预计发送1395万人次

微新创想：2025年春运期间，全国铁路运输迎来高峰。自2月2日春运正式启动至2月10日，全国铁路累计发送旅客已突破1亿人次。随着春节临近，返乡客流持续攀升，铁路部门不断加大运力投入以满足出行需求。 2月10日作为北方小年，预计全国铁路将发送旅客1395万人次。为应对客流高峰，铁路部门当天加开列车1363列，全力保障旅客出行。相比前一日，2月9日的发送量为14...