英伟达发布全球首个自动驾驶开源推理AI模型Alpamayo-R1

打印派 2025-12-08 11:09:44

英伟达正以大胆举措拓展人工智能研究的前沿领域。该公司于本周一宣布推出可能重塑自动驾驶、机器人技术和语音处理领域的开放物理与数字AI模型。这些突破性成果在顶级AI会议NeurIPS上亮相，标志着开源AI发展的新时代正式开启。

其中最引人注目的是Alpamayo-R1（AR1）——全球首个面向自动驾驶的开源推理视觉-语言-动作模型。该模型旨在将思维链推理与路径规划相结合，帮助车辆以类人判断力应对复杂路况。

推理驱动自动驾驶
英伟达表示："AR1通过分解场景并逐步推理来实现这一目标。"该模型能评估潜在轨迹并利用情境数据选择最安全路线，可有效处理行人密集的十字路口、违规停放的车辆或即将关闭的车道等复杂场景。

开放访问是英伟达战略的核心。基于NVIDIA Cosmos Reason构建的AR1支持研究人员针对非商业应用进行定制化开发。强化学习后期训练显示，该模型的推理能力相较于预训练版本有显著提升。

AR1已在GitHub和Hugging Face平台开放获取，同时部分训练数据收录于NVIDIA Physical AI开放数据集中。研究人员还可利用AlpaSim框架评估模型性能。除AR1外，英伟达Cosmos平台还提供一系列物理AI开发工具，包括生成自动驾驶仿真激光雷达数据的LidarGen、清理神经重建数据的Omniverse NuRec Fixer、制定机器人行为规则的Cosmos Policy，以及在拟真仿真环境中训练人形机器人的ProtoMotions3。

全球开发者与研究人员已开始试验这些模型。Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI和X-Humanoid等英伟达生态系统合作伙伴，正在自动驾驶与机器人项目中应用Cosmos基础模型。苏黎世联邦理工学院研究人员也运用Cosmos进行3D场景构建，并在NeurIPS上展示了研究成果。

数字AI版图扩张
在数字领域，英伟达正升级其Nemotron工具包，重点推出多说话人自动语音识别模型MultiTalker Parakeet和实时说话人日志系统Sortformer。Nemotron还引入了基于推理的AI安全模型，以及针对强化学习和特定领域AI开发的合成数据集。

其他重要更新包括：能够跨语音、音乐和声音进行推理的大型音频语言模型Audio Flamingo 3，以及在保持性能前提下实现混合模型压缩的Minitron-SSM。英伟达研究人员还展示了专为高效语言模型推理与低延迟优化的Jet-Nemotron和Nemotron-Flash模型。

英伟达指出："长周期强化学习是一种延长模型训练时长的方法论，采用该技术训练的模型在推理任务上持续超越基础模型。"凭借这些发布，英伟达持续将开源AI推向新高度，为研究人员、开发者和自主系统创新者提供强大工具。Artificial Analysis机构已将英伟达Nemotron系列评为AI生态中最开放的技术体系之一。