Claude 2终于迎来免费试用时代!经过长时间期待,这款AI助手终于向公众敞开大门。实测显示,它在文献概括、代码生成和逻辑推理方面实现了跨越式进步,但中文处理能力仍需提升。
**编者按**:本文源自微信公众号新智元(ID:AI_era),经微新创想授权转载。作为ChatGPT的强劲对手,Anthropic再次推出重磅产品——全新Claude 2。该模型不仅支持便捷的网页测试(目前仅限美国和英国IP),更在代码、数学和推理能力上实现了史诗级突破。最令人惊喜的是,Claude 2现已支持中文对话,且完全免费!体验地址:https://claude.ai/chats
只需输入自然语言,Claude 2就能高效完成各类任务。用户反馈显示,它交流流畅、逻辑清晰,极少产生有害输出,且具备强大的记忆能力。
### 全方位大升级
多项基准测试证明,Claude 2相较于前代产品实现了显著飞跃。在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)等测试中,Claude 2均取得更高分数。尤其值得注意的是,它在美国律师资格考试(Multistate Bar Examination)多项选择题中得分达76.5%,超越了许多通过考试的专业人士;在GRE阅读和写作考试中,其表现更胜90%的考生。
### 输入输出长度突破
Claude 2的一大突破在于输入输出长度的扩展。每个prompt最多支持100k token,意味着它能一次性处理数百页技术文档或整本书籍。输出能力同样强大,可生成数千token的备忘录、信函或故事。用户可上传PDF等文件,基于其内容进行深度对话,上下文长度远超GPT(尽管部分用户指出,Claude 2在指令识别上仍不及GPT)。
**案例演示**:
– 用户要求Claude 2分析两篇论文,前者需总结重要性,后者需制作章节重点降序表。
– 喂入超8300字符的PDF文件后,Claude 2完美完成任务。
Anthropic官方透露,Claude 2未来或将支持200k上下文。
### 代码、数学与推理能力
Claude 2在代码生成、数学计算和逻辑推理上全面进阶。Codex HumanEval测试中,其Python代码得分从56.0%跃升至71.2%;GSM8k数学问题得分从85.2%提升至88.0%。Anthropic展示了其代码能力:用户让Claude 2将静态地图转化为互动版本,它不仅生成代码,还能无缝嵌入现有代码框架。
### 实战测试
**编程能力**:
– 用户要求编写快速排序算法,Claude 2不仅生成代码,还解释了算法复杂度。
– 添加自定义输入输出功能后,代码运行流畅。
– 对Python代码进行解析,Claude 2给出简洁明了的解释。
**推理挑战**:
– 遇到高难度推理题时,Claude 2未能给出正确答案。
– 尝试“奶奶漏洞”式提示词攻击,Claude 2坚决拒绝,拒绝生成序列号。
**中文能力**:
– 鸡兔同笼问题未能攻克,文学理解能力(如谐音梗)表现平平。
– 对最新影视剧话题一无所知,但能解释笑话的谐音妙处。
– 幻觉问题偶有发生,甚至自创网络热梗。
### 更高的安全性能
Anthropic始终重视模型安全性,Claude 2在无害性上大幅改进。内部红队评估显示,其无害回应表现是Claude 1.3的两倍。Anthropic独创的Constitute AI技术框架,通过自动化方式排除人类偏见,分为两阶段:
1. 训练模型使用原则和示例批评并优化自身回应。
2. 强化学习训练,以“人类价值观”原则生成的AI反馈选择更无害输出。
**评估指标**:
– Elo分数:反映人类偏好选择倾向,Claude 2在有用性、诚实性、无害性上均领先。
– BBQ偏见基准:在9个维度(如性别、种族)上表现更公平。
– TruthfulQA:评估输出真实性,Claude 2表现优异。
– HHH任务:识别更“有用、诚实、无害”的输出,Claude系列全面进步。
– 红队攻击测试:Claude 2有害回答比例极低,安全性突出。
**参考资料**:
– 论文:https://arxiv.org/abs/2212.08073
– 模型卡:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有疑问,请联系http://www.idea2003.com/。