Claude 2震撼发布：10万token免费试玩代码推理能力大升级

2023-07-13 08:18:11 互联网 46 次阅读

Claude 2终于迎来免费试用时代！经过长时间期待，这款AI助手终于向公众敞开大门。实测显示，它在文献概括、代码生成和逻辑推理方面实现了跨越式进步，但中文处理能力仍需提升。

**编者按**：本文源自微信公众号新智元（ID：AI_era），经微新创想授权转载。作为ChatGPT的强劲对手，Anthropic再次推出重磅产品——全新Claude 2。该模型不仅支持便捷的网页测试（目前仅限美国和英国IP），更在代码、数学和推理能力上实现了史诗级突破。最令人惊喜的是，Claude 2现已支持中文对话，且完全免费！体验地址：https://claude.ai/chats

只需输入自然语言，Claude 2就能高效完成各类任务。用户反馈显示，它交流流畅、逻辑清晰，极少产生有害输出，且具备强大的记忆能力。

### 全方位大升级

多项基准测试证明，Claude 2相较于前代产品实现了显著飞跃。在Codex HumanEval（Python函数合成）、GSM8k（小学数学问题）、MMLU（多学科问答）等测试中，Claude 2均取得更高分数。尤其值得注意的是，它在美国律师资格考试（Multistate Bar Examination）多项选择题中得分达76.5%，超越了许多通过考试的专业人士；在GRE阅读和写作考试中，其表现更胜90%的考生。

### 输入输出长度突破

Claude 2的一大突破在于输入输出长度的扩展。每个prompt最多支持100k token，意味着它能一次性处理数百页技术文档或整本书籍。输出能力同样强大，可生成数千token的备忘录、信函或故事。用户可上传PDF等文件，基于其内容进行深度对话，上下文长度远超GPT（尽管部分用户指出，Claude 2在指令识别上仍不及GPT）。

**案例演示**：
– 用户要求Claude 2分析两篇论文，前者需总结重要性，后者需制作章节重点降序表。
– 喂入超8300字符的PDF文件后，Claude 2完美完成任务。
Anthropic官方透露，Claude 2未来或将支持200k上下文。

### 代码、数学与推理能力

Claude 2在代码生成、数学计算和逻辑推理上全面进阶。Codex HumanEval测试中，其Python代码得分从56.0%跃升至71.2%；GSM8k数学问题得分从85.2%提升至88.0%。Anthropic展示了其代码能力：用户让Claude 2将静态地图转化为互动版本，它不仅生成代码，还能无缝嵌入现有代码框架。

### 实战测试

**编程能力**：
– 用户要求编写快速排序算法，Claude 2不仅生成代码，还解释了算法复杂度。
– 添加自定义输入输出功能后，代码运行流畅。
– 对Python代码进行解析，Claude 2给出简洁明了的解释。

**推理挑战**：
– 遇到高难度推理题时，Claude 2未能给出正确答案。
– 尝试“奶奶漏洞”式提示词攻击，Claude 2坚决拒绝，拒绝生成序列号。

**中文能力**：
– 鸡兔同笼问题未能攻克，文学理解能力（如谐音梗）表现平平。
– 对最新影视剧话题一无所知，但能解释笑话的谐音妙处。
– 幻觉问题偶有发生，甚至自创网络热梗。

### 更高的安全性能

Anthropic始终重视模型安全性，Claude 2在无害性上大幅改进。内部红队评估显示，其无害回应表现是Claude 1.3的两倍。Anthropic独创的Constitute AI技术框架，通过自动化方式排除人类偏见，分为两阶段：
1. 训练模型使用原则和示例批评并优化自身回应。
2. 强化学习训练，以“人类价值观”原则生成的AI反馈选择更无害输出。

**评估指标**：
– Elo分数：反映人类偏好选择倾向，Claude 2在有用性、诚实性、无害性上均领先。
– BBQ偏见基准：在9个维度（如性别、种族）上表现更公平。
– TruthfulQA：评估输出真实性，Claude 2表现优异。
– HHH任务：识别更“有用、诚实、无害”的输出，Claude系列全面进步。
– 红队攻击测试：Claude 2有害回答比例极低，安全性突出。