英伟达正以大胆举措拓展人工智能研究的前沿领域。该公司于本周一宣布推出可能重塑自动驾驶、机器人技术和语音处理领域的开放物理与数字AI模型。这些突破性成果在顶级AI会议NeurIPS上亮相,标志着开源AI发展的新时代正式开启。
其中最引人注目的是Alpamayo-R1(AR1)——全球首个面向自动驾驶的开源推理视觉-语言-动作模型。该模型旨在将思维链推理与路径规划相结合,帮助车辆以类人判断力应对复杂路况。
推理驱动自动驾驶
英伟达表示:"AR1通过分解场景并逐步推理来实现这一目标。"该模型能评估潜在轨迹并利用情境数据选择最安全路线,可有效处理行人密集的十字路口、违规停放的车辆或即将关闭的车道等复杂场景。
开放访问是英伟达战略的核心。基于NVIDIA Cosmos Reason构建的AR1支持研究人员针对非商业应用进行定制化开发。强化学习后期训练显示,该模型的推理能力相较于预训练版本有显著提升。
AR1已在GitHub和Hugging Face平台开放获取,同时部分训练数据收录于NVIDIA Physical AI开放数据集中。研究人员还可利用AlpaSim框架评估模型性能。除AR1外,英伟达Cosmos平台还提供一系列物理AI开发工具,包括生成自动驾驶仿真激光雷达数据的LidarGen、清理神经重建数据的Omniverse NuRec Fixer、制定机器人行为规则的Cosmos Policy,以及在拟真仿真环境中训练人形机器人的ProtoMotions3。
全球开发者与研究人员已开始试验这些模型。Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI和X-Humanoid等英伟达生态系统合作伙伴,正在自动驾驶与机器人项目中应用Cosmos基础模型。苏黎世联邦理工学院研究人员也运用Cosmos进行3D场景构建,并在NeurIPS上展示了研究成果。
数字AI版图扩张
在数字领域,英伟达正升级其Nemotron工具包,重点推出多说话人自动语音识别模型MultiTalker Parakeet和实时说话人日志系统Sortformer。Nemotron还引入了基于推理的AI安全模型,以及针对强化学习和特定领域AI开发的合成数据集。
其他重要更新包括:能够跨语音、音乐和声音进行推理的大型音频语言模型Audio Flamingo 3,以及在保持性能前提下实现混合模型压缩的Minitron-SSM。英伟达研究人员还展示了专为高效语言模型推理与低延迟优化的Jet-Nemotron和Nemotron-Flash模型。
英伟达指出:"长周期强化学习是一种延长模型训练时长的方法论,采用该技术训练的模型在推理任务上持续超越基础模型。"凭借这些发布,英伟达持续将开源AI推向新高度,为研究人员、开发者和自主系统创新者提供强大工具。Artificial Analysis机构已将英伟达Nemotron系列评为AI生态中最开放的技术体系之一。
31 0
登陆后参与评论
2025-12-08 09:52:31
2025-12-05 10:38:19
2025-12-05 09:26:03
2025-12-05 09:23:53
2025-12-03 09:39:16
2025-12-03 09:36:41
2025-12-02 09:16:04
2025-11-28 09:07:57
2025-11-28 09:06:02
2025-11-27 09:27:11
2025-11-25 11:19:09
2025-11-25 11:16:53