DeepSeek,一家来自中国的AI实验室,本周意外地在全球范围内引起了广泛关注,其聊天机器人应用在苹果App Store和Google Play下载排行榜上登顶。这家公司采用高效计算技术训练的AI模型,引发了华尔街分析师和科技界对美国能否保持AI领先地位以及AI芯片需求可持续性的深入思考。
DeepSeek的背后是中国量化对冲基金幻方量化(High-Flyer Capital Management)。该基金利用AI技术辅助交易决策,由AI爱好者梁文锋于2015年联合创立。据报道,梁文锋在浙江大学就读期间开始涉足交易领域,2019年将幻方转型为专注开发和部署AI算法的对冲基金。2023年,幻方启动DeepSeek项目,作为独立于金融业务的AI工具研究实验室。随后在幻方的投资支持下,该实验室分拆为独立公司DeepSeek。
从创立之初,DeepSeek就自建数据中心集群用于模型训练。但与其他中国AI公司一样,DeepSeek受到美国硬件出口禁令的影响。在训练最近的模型时,公司被迫使用英伟达H800芯片,这是性能弱于美国公司可获得的H100芯片的降级版本。
据了解,DeepSeek技术团队年龄结构偏年轻,公司积极从中国顶尖大学招募AI领域博士研究人员。《纽约时报》报道称,DeepSeek还雇用没有计算机科学背景的人员,帮助技术团队更好理解广泛的学科领域。
DeepSeek于2023年11月发布首批模型DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。直到去年春季发布新一代DeepSeek-V2系列模型时,AI行业才开始真正关注这家公司。DeepSeek-V2是一个通用文本和图像分析系统,在多项AI基准测试中表现出色,运行成本远低于当时的同类模型。这迫使字节跳动和阿里巴巴等国内竞争对手削减部分模型的使用价格,甚至将某些模型完全免费开放。
2024年12月发布的DeepSeek-V3进一步提升了该公司的知名度。根据内部基准测试,DeepSeek V3的性能超越了Meta的Llama等可下载开源模型,以及OpenAI GPT-4o等仅能通过API访问的封闭模型。同样令人印象深刻的是DeepSeek的R1推理模型。该模型于今年1月发布,DeepSeek声称其在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型,R1能够有效地自我验证,帮助避免一些常见错误。推理模型通常需要多花几秒到几分钟时间才能得出解决方案,但优势是在物理、科学和数学等领域更加可靠。
不过DeepSeek的模型也存在局限性。作为中国开发的AI系统,这些模型需要接受中国互联网监管机构的基准测试,确保响应”体现社会主义核心价值观”。在DeepSeek聊天应用中,R1不会回答关于天安门广场或台湾自治等敏感问题。
3月份DeepSeek访问量超过1650万次。Similarweb编辑David Carr告诉TechCrunch:”3月份DeepSeek排名第二,尽管每日访问量比2月下降了25%。”但这仍远低于ChatGPT,后者3月的每周活跃用户超过5亿。5月,DeepSeek在开发者平台Hugging Face上发布了R1推理模型的更新版本。9月,公司推出名为V3.2-exp的实验模型,旨在大幅降低长上下文操作中的推理成本。
如果说DeepSeek有商业模式,目前尚不清楚具体是什么。该公司产品和服务定价远低于市场价格,部分服务甚至免费提供。尽管风投机构兴趣浓厚,但公司并未接受外部投资。DeepSeek声称效率突破使其能够保持极端成本竞争力,但一些专家对公司提供的数据持怀疑态度。
无论如何,开发者已经广泛采用DeepSeek的模型。这些模型虽非传统意义上的开源,但采用宽松许可证允许商业使用。Hugging Face首席执行官Clem Delangue表示,该平台上的开发者已创建超过500个R1衍生模型,总下载量达250万次。
DeepSeek对更大更成熟竞争对手的成功被描述为”颠覆AI行业”和”过度炒作”。该公司的成功至少部分导致英伟达股价1月份下跌18%,并引发OpenAI首席执行官Sam Altman的公开回应。3月,据路透社报道,美国商务部各局通知员工DeepSeek将在政府设备上被禁用。微软宣布在其Azure AI Foundry服务上提供DeepSeek。在第一季度财报电话会议上被问及DeepSeek对Meta AI支出的影响时,首席执行官扎克伯格表示AI基础设施支出将继续是Meta的”战略优势”。
3月,OpenAI称DeepSeek”受国家补贴”且”受国家控制”,建议美国政府考虑禁止DeepSeek模型。英伟达第四季度财报电话会议上,首席执行官黄仁勋强调了DeepSeek的”卓越创新”,表示该公司及其他推理模型对英伟达有利,因为它们需要更多计算资源。
与此同时,一些公司和国家正在禁用DeepSeek,包括韩国。纽约州也禁止在政府设备上使用DeepSeek。5月,微软副董事长兼总裁Brad Smith在参议院听证会上表示,出于数据安全和宣传担忧,微软员工不允许使用DeepSeek。
至于DeepSeek的未来走向尚不明朗。改进模型是必然的,但美国政府似乎对其认为的有害外国影响越来越警惕。3月,《华尔街日报》报道称美国可能会在政府设备上禁用DeepSeek。