微新创想(idea2003.com) 8月18日讯:在科技行业人工智能模型的性能对比中,微软支持的OpenAI GPT-4在数学领域表现卓越,而Meta的Llama 2则位居中游,Anthropic的Claude 2在自我认知局限方面表现突出,Cohere AI则因产生最多幻觉和自信错误答案而备受争议。这份周四发布的报告由Arthur AI研究人员撰写,Arthur AI是一家专注于机器学习监测的平台。该研究正值人工智能系统误导信息问题引发广泛争议,同时生成式人工智能正处于高速发展阶段。

Arthur AI联合创始人兼CEO Adam Wenchel强调,这是首份全面评估幻觉率的报告,而非简单罗列LLM排行榜数据。当大型语言模型捏造信息却表现得如同真实陈述时,就会产生AI幻觉。例如今年6月,有用户发现ChatGPT在纽约联邦法院文件中引用了”虚假案例”,相关律师可能面临处罚。Arthur AI研究人员通过组合数学、美国总统及摩洛哥政治领导人等测试场景,设计了一系列需要多步骤推理的问题,以评估模型性能。

在多项测试中,OpenAI GPT-4表现最为出色,其幻觉现象较GPT-3.5版本减少33%至50%,特别是在数学问题上。相比之下,Meta Llama 2的幻觉率高于GPT-4和Anthropic Claude 2。虽然GPT-4在数学测试中位居第一,Claude 2紧随其后,但在美国总统类别测试中,Claude 2凭借高准确率反超GPT-4。在摩洛哥政治问题测试中,GPT-4再次领先,而Claude 2和Llama 2则倾向于回避回答。

第二个实验显示,GPT-4在使用警示语方面比GPT-3.5提升50%,这从用户反馈中印证了其更谨慎的回应方式。然而Cohere AI模型在所有回答中均未使用警示语。研究特别指出,Claude 2在自我意识方面表现最佳,能够准确评估自身知识边界,仅回答有数据支持的问题。

Cohere AI对此结果提出异议,发言人表示”其检索自动生成技术未被全面测试”,该技术对企业验证信息来源具有重要价值。Wenchel建议用户和企业应根据实际工作负载评估模型性能,强调”了解LLM在特定任务中的表现至关重要”。他指出许多基准测试仅关注LLM单一指标,而实际应用场景远比测试环境复杂,因此掌握LLM在实际应用中的表现才是关键。

Arthur AI研究报告:https://www.arthur.ai/gap

最新快讯

2025年12月15日

12:07
微新创想12月15日重磅报道,华为nova 15系列今日正式官宣,定于12月22日14:30举行盛大的新品发布会,正式揭开神秘面纱。今日12:08,华为商城、各大电商平台以及线下实体店铺同步开启预售通道,让全球消费者提前体验期待已久的创新科技。 备受瞩目的nova15 Ultra率先曝光其惊艳外观,采用了极为大胆的深绿色配色方案,从背壳到中框再到Deco设计...
12:00
2025年12月15日,在中国信息通信大会这一行业盛会上,中国移动重磅发布了《6G传输技术白皮书》以及备受瞩目的“6G传输系统原型样机1.0”。这份白皮书以系统化的视角,全面阐述了6G传输网络的未来愿景、整体架构设计以及一系列突破性的关键技术,为全球通信技术发展提供了重要参考。与此同时,原型样机作为将理论转化为实践的关键载体,成功验证了三大核心能力:业务感知...
12:00
2025年12月15日,备受瞩目的生物科技企业伯汇生物正式宣布成功斩获近亿元人民币A+轮融资,标志着其发展迈入全新里程碑。本轮融资由实力雄厚的亦庄国投强势领投,北创投紧随其后积极跟投,而龙磐投资等老股东也继续展现出对伯汇生物的高度信心,再次加持其发展之路。伯汇生物作为一家专注于肿瘤治疗与自身免疫性疾病领域的临床阶段创新药企,始终秉持着"肿瘤免疫2.0"的前瞻...
12:00
2025年12月15日,韩国科技巨头LG电子正式宣布,旗下顶级品牌LG SIGNATURE将在即将到来的CES 2026消费电子展上,重磅推出集成尖端AI技术的智能家电系列。这一创新系列不仅代表了家电领域的最新科技突破,更将重新定义高端家居生活体验。 此次发布的全新产品阵容堪称智能家电领域的革命性突破。核心亮点包括搭载新一代大型语言模型(LLM)对话系统的智...
12:00
根据《卫报》最新报道,2025年全球范围内涌现出一种令人担忧的现象:超过150个匿名的YouTube频道,借助廉价的人工智能工具,系统性地制作并传播针对英国工党的虚假视频内容。这些精心策划的误导性信息累计获得了超过12亿次的观看,其传播规模之大令人咋舌。这些频道利用煽动性的标题和极具误导性的描述,试图在当前英国激烈的政治分歧中浑水摸鱼,从中牟利。 一项深入的...
12:00
甲骨文公司与OpenAI合作建设的大型数据中心项目迎来重要进展,但同时也面临新的挑战。据行业内部消息透露,原定于2027年完工的数据中心项目将推迟至2028年交付。这一调整主要源于当前全球范围内普遍存在的劳动力短缺和建筑材料供应紧张问题。消息人士出于内部保密考虑,选择匿名分享这一最新动态。 尽管面临延期风险,这项位于美国本土的建设计划仍被业界视为具有里程碑意...
11:30
据韩国媒体Dealsite最新消息,苹果公司计划于2027年第三季度正式发布iPhone 20,这一代产品将跳过iPhone 19的命名传统,以纪念初代iPhone问世20周年。这一重大决策不仅彰显了苹果对自身创新历史的尊重,更预示着该公司在智能手机领域将迎来全新突破。 作为iPhone家族的20周年纪念机型,iPhone 20将采用极具突破性的"真全面屏"...
11:30
2025年12月15日,康源博创正式宣布成功完成B系列轮次融资,总金额高达近2.5亿元人民币。这一重要里程碑标志着公司在肿瘤药物研发领域的持续突破和行业认可度的显著提升。本轮融资由博远资本、北京市医药健康产业投资基金以及亦庄国投联合领投,光大控股、金易赋新、仁爱资本和亦庄投资等知名机构积极跟投,而老股东源慧创益也持续追加投资,共同助力公司发展。 康源博创...
11:30
2025年12月15日,国内领先的在线健康服务平台九为健康正式宣布成功完成新一轮数千万元人民币的战略融资,此次投资由杨凌中通优势产业创新股权投资基金独家领投。作为国内健康服务领域的创新企业,九为健康凭借其专业的远程健康管理、个性化健康咨询以及一、二类医疗器械销售三大核心业务,赢得了市场的广泛认可。此次融资不仅为九为健康注入了强劲的发展动力,更将有力推动其在技...
11:30
2025年12月15日,全诊医学正式宣布成功斩获数千万元人民币B+轮融资。本次融资由知名投资机构普华资本独家领投,常金控与杭州人才基金联合跟投,探针资本全程担任独家财务顾问。这一重要里程碑不仅彰显了资本市场对全诊医学创新实力的高度认可,更为其未来发展注入强劲动力。 据悉,本次募集的资金将重点投向三大核心领域:一是深度研发"全诊医学大模型及临床应用",通过持续...
11:30
2025年12月15日,国内领先的中医智能化服务商问岐健康正式宣布成功斩获千万级Pre-A轮战略融资,投资方阵容强大,包括知名的风险投资机构北京春雨资本等。此次融资不仅为问岐健康注入了强劲的发展动力,更彰显了资本市场对其创新模式的深度认可。据悉,该笔资金将重点投向两大核心领域:一是加速人工智能与大数据技术在传统中医领域的深度融合与实际应用,二是全面拓展其"智...
11:30
2025年re:Invent大会亮点纷呈,亚马逊云科技震撼发布两项革命性新功能——Amazon Lambda持久化函数与托管实例。这两项创新不仅重新定义了Serverless架构的应用边界,更为企业级开发者提供了前所未有的灵活性与强大性能支持。 Amazon Lambda持久化函数突破了传统Serverless架构的局限,首次实现了长期运行工作流的自动进...