Anthropic在深夜悄然发布了Claude Sonnet4.5版本,这次更新不仅实现了技术指标的全面飞跃,更通过实验性功能Imagine with Claude,向世界展示了AI实时生成软件界面的创新未来。Claude Sonnet4.5在编码能力方面取得了令人瞩目的突破。该模型在SWE-bench Verified基准测试中斩获77.2%的优异成绩,超越了前代Claude Opus4.1的74.5%,被Anthropic誉为全球最佳编码模型。在逻辑推理、高级数学和多步骤编码任务上,Sonnet4.5均展现出卓越表现,甚至能够自主运行超过30小时处理复杂代理任务。值得注意的是,尽管Sonnet4.5的模型规模小于Opus4.1,却在多数能力维度上实现了领先。
定价策略方面,Anthropic保持了稳定,API输入费用为每百万token3美元,输出费用为每百万token15美元,用户可通过Claude API、Amazon Bedrock和Google Vertex AI等平台访问。在安全性方面,新版本进一步优化了模型对齐性,有效减少了讨好用户、欺骗等不良行为模式,并采用ASL-3安全框架过滤潜在危险内容。更令人惊叹的是,该模型已经能够独立重建Claude.ai网页应用,耗时5.5小时完成超过3000次工具调用,展现出接近生产级应用的能力。
此次发布的核心亮点无疑是Imagine with Claude实验功能,该功能仅向Max订阅用户开放5天体验期。这个临时性功能提供类似桌面环境的交互界面,用户只需通过自然语言输入需求,Claude Sonnet4.5便会实时流式生成UI元素、功能逻辑和交互机制。与传统软件开发截然不同,Imagine功能无需依赖预设代码或固定模板,而是根据用户意图动态生成完整应用。例如,当用户提出创建天气预报应用的需求时,AI会即时渲染界面、实现功能逻辑和数据交互。用户甚至可以将生成的应用放置在桌面环境中使用。
配合模型发布,Anthropic推出了Claude Agent SDK,允许开发者利用内部基础设施构建自定义代理,支持虚拟机访问、内存管理和多代理协作。Claude Code新增了检查点功能,支持即时回滚进度,并集成了VS Code和JetBrains开发环境,以及面向Max用户的Chrome扩展。
Imagine with Claude功能引发了关于AI原生操作系统的广泛讨论。这种实时生成界面的方式挑战了传统软件开发范式,不再依赖预先编写的代码,而是让AI根据用户意图动态演化界面和逻辑。需要指出的是,Imagine功能目前仍处于早期实验阶段,复杂UI的按钮响应存在延迟问题,需要进一步优化。Anthropic表示此举旨在探索代理能力的边界,未来将扩展至更多应用场景。
从技术发展趋势来看,Claude Sonnet4.5巩固了Anthropic在编码领域的竞争地位,而Imagine功能则代表了一种新的人机交互范式探索。这种实时生成软件界面的能力,可能为未来的应用开发和用户体验设计带来根本性变革。不过需要保持理性认知,当前的实验性功能距离真正的AI原生操作系统还有相当距离。稳定性、性能优化、安全性保障等诸多问题都需要在实际应用中逐步解决。