英伟达发布首个自动驾驶视觉语言模型Alpamayo-R1加速物理AI发展

2025-12-02 10:02:43 AI动态 2 次阅读

芯片巨头英伟达在加州圣地亚哥举办的 NeurIPS 人工智能大会上重磅发布了新一代基础设施和人工智能模型，这一战略举措旨在加速构建物理人工智能（Physical AI）的核心技术体系。该领域涵盖感知现实世界并与之互动的智能机器人和自动驾驶汽车等前沿应用。

首个自动驾驶推理视觉语言模型正式亮相英伟达此次推出的 Alpamayo-R1 是一款专为自动驾驶研究打造的开放式推理视觉语言模型（VLAM）。该模型开创性地聚焦于自动驾驶场景，实现了视觉语言动作的协同处理能力，使智能车辆能够精准感知周围环境，并基于感知信息做出智能决策。Alpamayo-R1 深度基于英伟达的 Cosmos-Reason 推理模型，这种先进的推理架构能够在执行响应前进行深度”思考”和逻辑判断。英伟达强调，这类推理技术对于追求 L4 级完全自动驾驶的企业而言至关重要，其目标是赋予自动驾驶汽车”常识”认知能力，使其能够像人类驾驶员一样从容应对复杂驾驶场景。

这款创新模型已在 GitHub 和 Hugging Face 平台全面开放，为开发者提供宝贵的研究资源。Cosmos Cookbook:加速开发者落地应用除了全新的视觉模型，英伟达还在 GitHub 上线了一套系统的开发指南、推理资源和训练后工作流程，统称为 Cosmos Cookbook。这套实用工具涵盖了数据整理、合成数据生成和模型评估等关键环节，旨在帮助开发者更高效地应用和训练 Cosmos 模型，满足多样化的应用场景需求。

锁定下一波AI浪潮:物理人工智能此次发布正值英伟达全力布局物理人工智能领域的战略节点，将其视为其高端 AI GPU 的全新应用方向。英伟达联合创始人兼首席执行官黄仁勋多次公开强调，物理人工智能将引领下一波人工智能发展浪潮。英伟达首席科学家比尔·戴利也表达了相同观点，并特别指出物理人工智能在机器人领域的革命性应用前景。戴利曾明确表示：”我认为机器人最终将在人类社会中扮演核心角色，而我们致力于打造所有机器人的’大脑’。要实现这一目标，必须突破关键技术瓶颈。”