微新创想(idea2003.com) 8月18日讯:在科技行业人工智能模型的性能对比中,微软支持的OpenAI GPT-4在数学领域表现卓越,而Meta的Llama 2则位居中游,Anthropic的Claude 2在自我认知局限方面表现突出,Cohere AI则因产生最多幻觉和自信错误答案而备受争议。这份周四发布的报告由Arthur AI研究人员撰写,Arthur AI是一家专注于机器学习监测的平台。该研究正值人工智能系统误导信息问题引发广泛争议,同时生成式人工智能正处于高速发展阶段。
Arthur AI联合创始人兼CEO Adam Wenchel强调,这是首份全面评估幻觉率的报告,而非简单罗列LLM排行榜数据。当大型语言模型捏造信息却表现得如同真实陈述时,就会产生AI幻觉。例如今年6月,有用户发现ChatGPT在纽约联邦法院文件中引用了”虚假案例”,相关律师可能面临处罚。Arthur AI研究人员通过组合数学、美国总统及摩洛哥政治领导人等测试场景,设计了一系列需要多步骤推理的问题,以评估模型性能。
在多项测试中,OpenAI GPT-4表现最为出色,其幻觉现象较GPT-3.5版本减少33%至50%,特别是在数学问题上。相比之下,Meta Llama 2的幻觉率高于GPT-4和Anthropic Claude 2。虽然GPT-4在数学测试中位居第一,Claude 2紧随其后,但在美国总统类别测试中,Claude 2凭借高准确率反超GPT-4。在摩洛哥政治问题测试中,GPT-4再次领先,而Claude 2和Llama 2则倾向于回避回答。
第二个实验显示,GPT-4在使用警示语方面比GPT-3.5提升50%,这从用户反馈中印证了其更谨慎的回应方式。然而Cohere AI模型在所有回答中均未使用警示语。研究特别指出,Claude 2在自我意识方面表现最佳,能够准确评估自身知识边界,仅回答有数据支持的问题。
Cohere AI对此结果提出异议,发言人表示”其检索自动生成技术未被全面测试”,该技术对企业验证信息来源具有重要价值。Wenchel建议用户和企业应根据实际工作负载评估模型性能,强调”了解LLM在特定任务中的表现至关重要”。他指出许多基准测试仅关注LLM单一指标,而实际应用场景远比测试环境复杂,因此掌握LLM在实际应用中的表现才是关键。
Arthur AI研究报告:https://www.arthur.ai/gap