Claude 2终于迎来免费试用时代!经过长时间期待,这款AI助手终于向公众敞开大门。实测显示,它在文献概括、代码生成和逻辑推理方面实现了跨越式进步,但中文处理能力仍需提升。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图

**编者按**:本文源自微信公众号新智元(ID:AI_era),经微新创想授权转载。作为ChatGPT的强劲对手,Anthropic再次推出重磅产品——全新Claude 2。该模型不仅支持便捷的网页测试(目前仅限美国和英国IP),更在代码、数学和推理能力上实现了史诗级突破。最令人惊喜的是,Claude 2现已支持中文对话,且完全免费!体验地址:https://claude.ai/chats

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图1

只需输入自然语言,Claude 2就能高效完成各类任务。用户反馈显示,它交流流畅、逻辑清晰,极少产生有害输出,且具备强大的记忆能力。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图2

### 全方位大升级

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图3

多项基准测试证明,Claude 2相较于前代产品实现了显著飞跃。在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)等测试中,Claude 2均取得更高分数。尤其值得注意的是,它在美国律师资格考试(Multistate Bar Examination)多项选择题中得分达76.5%,超越了许多通过考试的专业人士;在GRE阅读和写作考试中,其表现更胜90%的考生。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图4

### 输入输出长度突破

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图5

Claude 2的一大突破在于输入输出长度的扩展。每个prompt最多支持100k token,意味着它能一次性处理数百页技术文档或整本书籍。输出能力同样强大,可生成数千token的备忘录、信函或故事。用户可上传PDF等文件,基于其内容进行深度对话,上下文长度远超GPT(尽管部分用户指出,Claude 2在指令识别上仍不及GPT)。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图6

**案例演示**:
– 用户要求Claude 2分析两篇论文,前者需总结重要性,后者需制作章节重点降序表。
– 喂入超8300字符的PDF文件后,Claude 2完美完成任务。
Anthropic官方透露,Claude 2未来或将支持200k上下文。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图7

### 代码、数学与推理能力

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图8

Claude 2在代码生成、数学计算和逻辑推理上全面进阶。Codex HumanEval测试中,其Python代码得分从56.0%跃升至71.2%;GSM8k数学问题得分从85.2%提升至88.0%。Anthropic展示了其代码能力:用户让Claude 2将静态地图转化为互动版本,它不仅生成代码,还能无缝嵌入现有代码框架。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图9

### 实战测试

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图10

**编程能力**:
– 用户要求编写快速排序算法,Claude 2不仅生成代码,还解释了算法复杂度。
– 添加自定义输入输出功能后,代码运行流畅。
– 对Python代码进行解析,Claude 2给出简洁明了的解释。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图11

**推理挑战**:
– 遇到高难度推理题时,Claude 2未能给出正确答案。
– 尝试“奶奶漏洞”式提示词攻击,Claude 2坚决拒绝,拒绝生成序列号。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图12

**中文能力**:
– 鸡兔同笼问题未能攻克,文学理解能力(如谐音梗)表现平平。
– 对最新影视剧话题一无所知,但能解释笑话的谐音妙处。
– 幻觉问题偶有发生,甚至自创网络热梗。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图13

### 更高的安全性能

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图14

Anthropic始终重视模型安全性,Claude 2在无害性上大幅改进。内部红队评估显示,其无害回应表现是Claude 1.3的两倍。Anthropic独创的Constitute AI技术框架,通过自动化方式排除人类偏见,分为两阶段:
1. 训练模型使用原则和示例批评并优化自身回应。
2. 强化学习训练,以“人类价值观”原则生成的AI反馈选择更无害输出。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图15

**评估指标**:
– Elo分数:反映人类偏好选择倾向,Claude 2在有用性、诚实性、无害性上均领先。
– BBQ偏见基准:在9个维度(如性别、种族)上表现更公平。
– TruthfulQA:评估输出真实性,Claude 2表现优异。
– HHH任务:识别更“有用、诚实、无害”的输出,Claude系列全面进步。
– 红队攻击测试:Claude 2有害回答比例极低,安全性突出。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图16

**参考资料**:
– 论文:https://arxiv.org/abs/2212.08073
– 模型卡:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图17

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有疑问,请联系http://www.idea2003.com/。

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图18

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图19

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图20

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图21

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图22

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图23

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图24

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图25

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图26

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图27

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图28

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图29

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图30

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图31

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图32

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图33

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图34

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图35

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图36

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图37

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图38

Claude 2震撼发布:10万token免费试玩 代码推理能力大升级插图39

最新快讯

2025年09月18日

23:49
梅赛德斯-AMG的董事会成员迈克尔·施贝用一句生动比喻阐释了品牌的核心定位——"我们是蝙蝠侠,不是超人"。这一形象化的表达精准地描绘了AMG在豪华与性能之间寻求独特锋芒的品牌形象,立志成为"危险的女婿",在高端汽车市场中独树一帜。在每周的产品开发会议上,"够蝙蝠侠吗?"已成为衡量新车型的关键标准,彰显了品牌对极致性能与独特设计的双重追求。 施贝强调,当前客户...
23:49
2025年9月18日,可灵AI重磅推出全新数字人功能,为用户带来前所未有的个性化视频创作体验。只需上传一张角色图片,并配合一段文字或音频,即可一键生成最高1080p/48FPS、最长1分钟的数字人视频。这一创新功能深度融合了多模态理解技术与前沿视频生成模型,实现了口型与表情的精准同步,以及情绪动作的细腻控制。无论是活泼可爱的动漫形象,还是专业稳重的商务角色,...
23:49
本周Epic游戏商城推出两款风格迥异的佳作限时免费赠送活动,分别为《银河历险记2》与《冬日计划》,为玩家带来截然不同的游戏体验。 《银河历险记2》是一款充满奇幻色彩的解谜冒险游戏,故事围绕一名勇敢的太空地精展开。为了拯救被外星人掳走的爱犬,这位机智的地精踏上了充满未知的星际旅程。游戏由Floex精心创作的舒缓配乐加持,营造出独特的沉浸式体验,让玩家仿佛置身于...
23:49
9月17日,上海证券交易所债券业务中心相关负责人在沪市REITs专场投资者交流会上发表重要讲话,明确表示将重点支持那些诚实守信、运营效率高且积极回报投资者的REITs项目方。这一举措旨在通过充分发挥债券业务条线的全链条服务优势,全方位助力这些优质项目方建设完善的REITs平台,并着力培育一批能够赢得投资者高度信任的标杆项目。通过这种精准施策,上交所致力于在R...
23:49
9月18日最新数据显示,风电概念股市场表现强劲,超过半数个股出现主力资金净流入,展现出该板块备受市场青睐的态势。其中,通裕重工和中天科技表现尤为突出,分别获得5.66亿元和1.47亿元的净资金流入,位列行业前列。大金重工、三峡能源、禾望电气、东方电缆等企业也凭借优异表现,稳居资金流入榜前茅。 从全年表现来看,风电板块整体呈现强势上涨趋势。其中,国内风电叶片行...
23:49
2025年9月18日,美国与英国正式宣布成立美英基准测试工作组,标志着两国在量子科技领域合作迈入新阶段。该工作组将聚焦于量子计算硬件、软件及算法的基准测试,通过系统性研究加速相关技术的突破性进展。此举不仅旨在提升美英两国在量子技术标准制定方面的协作水平,更被视为推动量子计算从理论走向实用化的关键举措。 作为全球量子科技竞争的前沿阵地,美英两国此次合作具有深远...
23:16
近日,一则关于美国制药农业巨头PharmAGRI计划大规模采购特斯拉Optimus人形机器人的消息在业界引发广泛关注。然而,特斯拉CEO埃隆·马斯克今日迅速作出回应,公开辟谣称该报道纯属虚假信息。这一表态迅速平息了市场疑虑,也再次凸显了特斯拉在机器人领域谨慎的商业策略。 PharmAGRI方面此前曾发布声明,称与特斯拉达成了初步合作意向,并公开展示了Opti...
23:16
2025年9月18日,华为全联接大会2025隆重召开,华为混合云总裁肖霏在会上正式发布了备受瞩目的华为云Stack 8.6版本。这一重大升级不仅全面适配了CloudMatrix 384超节点技术,更显著提升了大规模算力集群的部署效率与管理性能,为政企客户构建高性能、高可靠云基础设施提供了强大支撑。此次版本迭代的核心目标,正是为了精准响应政企客户在数字化转型过...
23:16
9月18日,上海市教育委员会正式对外通报,针对9月15日部分学校午餐中虾仁炒蛋引发的社会关切,已迅速启动联合调查机制。此次调查由市教委联合市场监管部门共同推进,旨在全面排查问题根源,确保校园食品安全。据悉,涉事菜品及所有相关原料已全部封存,并分别送至上海市质量监督检验技术研究院有限公司和上海中维检测技术有限公司进行权威检测。检测机构将严格按照国家标准进行全方...
23:16
特斯拉今日正式开启2025.26.300版本软件的逐步推送工作,首批覆盖对象为国内市场的Model Y L车型。此次系统更新着重优化了语音助手交互体验,用户在通过"嘿,特斯拉"唤醒功能后,车机界面将呈现全新设计的语音交互卡片,在视觉呈现与操作逻辑上均实现了显著升级。 Model Y L自8月19日上市以来,凭借其独特的六座布局、751公里超长续航以及4.5秒...
22:42
海控全球精品免税城官方正式宣布,备受瞩目的iPhone 17及Pro系列将于9月19日登陆海南免税商店,为消费者带来前所未有的购机体验。此次发售的iPhone 17标准版中,256GB版本免税价为5699元,512GB版本则提升至7599元,价格亲民。而iPhone 17 Pro系列起售价为8729元,Pro Max版本最低售价更是达到9699元,满足不同消...
22:42
现代汽车正悄然掀起一场人机交互的变革浪潮,据权威汽车媒体Auto Express独家披露,这家全球知名车企正计划逐步削减对触控屏的过度依赖,重新回归以实体按键为核心的操控体验。这一大胆举措的先声,便是其最新发布的Concept Three概念车,这款前瞻设计作品彻底摒弃了传统中控大屏,转而采用多个可定制化的小型交互组件,并将驾驶者最关心的行车信息巧妙集成于挡...