近年来人工智能技术的迅猛发展彻底改变了编程工具的使用方式。曾经作为主流的AI驱动软件开发工具如Cursor、Windsurf和GitHub Copilot等代码编辑器正逐渐被新兴技术所取代。随着”自主代理AI”的崛起和”氛围编程”的流行AI系统与软件的互动方式正在发生深刻变革。如今AI工具越来越多地直接与系统的命令行接口终端进行交互。
终端这个在90年代黑客电影中广为传播的黑白屏幕虽然不如现代代码编辑器炫酷却拥有强大的操作能力。在程序开发中AI不仅能编写和调试代码终端工具更是将代码转化为可用软件的关键。这一转变最明显的体现是主要实验室相继推出的命令行编码工具。自今年2月以来Anthropic、DeepMind和OpenAI相继发布了Claude Code、Gemini CLI和CLI Codex等命令行工具迅速成为公司最受欢迎的产品之一。这一变化虽然不易察觉但实际上标志着AI与计算机之间互动方式的根本性转变。许多专家认为这种趋势才刚刚开始。
Terminal-Bench的共同创作者Mike Merrill表示我们坚信未来95%的大型语言模型LLM与计算机的互动将通过类似终端的接口进行。与此同时传统的代码编辑工具也面临着不小的挑战。AI代码编辑器Windsurf经历了一系列收购公司的未来变得不确定。而新研究显示程序员们对传统工具的生产力提升估计过高。比如METR的一项研究发现尽管开发者认为使用Cursor Pro能提高20%至30%的工作效率实际观察结果却显示任务的完成速度反而慢了近20%。
在这样的背景下Warp等公司迅速崛起凭借其在Terminal-Bench中的高分成为终端工具的佼佼者。Warp的创始人Zach Lloyd对终端充满信心他认为终端是处理代码编辑器难以解决问题的理想场所。新方法的关键在于如何定义其性能基准。传统工具通常关注解决GitHub上的代码问题而终端工具则从更广泛的视角出发涵盖代码编写、DevOps任务等各个方面。比如Terminal-Bench的一道题目要求AI逆向工程一个压缩算法另一道则要求其从源代码构建Linux内核。这需要程序员所需的顽强解决问题的能力。
虽然现在的终端工具尚未完全解锁其潜力但Lloyd相信它们已经能够处理许多开发者的非编码工作这无疑是个值得期待的前景。