NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

【导语】在机器人学习大会（CoRL）上，NVIDIA 宣布开源物理引擎 Newton 现已可通过 NVIDIA Isaac™ Lab 获取，同时推出开源推理视觉语言动作模型 NVIDIA Isaac GR00T N1.6 及全新 AI 基础设施。这些技术为开发者提供开源机器人加速平台，助力机器人研究与应用迈向新高度，众多高校和领先机器人公司已率先采用相关技术。

由 NVIDIA、Google DeepMind 以及 Disney Research 联合开发的开源物理引擎 Newton，现可在 NVIDIA Isaac Lab 中使用。这一物理引擎将助力科研人员及开发者打造功能更强大、适应性更强的机器人。
全新的 NVIDIA Isaac GR00T 开源基础模型将为机器人赋予接近人类的推理能力，使其能够拆解复杂指令，并借助已有知识与常识执行任务。

借助全新的 NVIDIA Cosmos 世界基础模型，开发者可以生成多样化数据，从而大规模加速物理 AI 模型的训练。
来自斯坦福大学、苏黎世联邦理工学院、新加坡国立大学等顶尖高校的全球科研人员，正借助 NVIDIA 的加速计算技术及软件推进机器人研究工作。
包括 Agility Robotics、Boston Dynamics、Disney Research、Figure AI、Franka Robotics、Hexagon、Skild AI、Solomon 以及 Techman Robot 在内的领先机器人公司，正在采用 NVIDIA Isaac 与 Omniverse 技术。

NVIDIA 今日在机器人学习大会（CoRL）上宣布，开源物理引擎 Newton 现已可以通过 NVIDIA Isaac™ Lab 获取，同时推出的还有用于机器人技能的开源推理视觉语言动作模型 NVIDIA Isaac GR00T N1.6，以及全新 AI 基础设施。上述技术为开发者和研究人员提供了开源的机器人加速平台，该平台能够加快迭代周期、统一测试标准、整合训练与机器人端推理，并助力机器人安全可靠地将技能从仿真环境迁移到现实世界。

NVIDIA Omniverse 与仿真技术副总裁 Rev Lebaredian 表示：“人形机器人是物理 AI 的下一个前沿领域，需要在不可预测的世界中进行推理，适应环境并安全行动。通过最新升级，开发者可以拥有将机器人从研发阶段带入日常生活的三大核心工具，包括充当机器人‘大脑’的 Isaac GR00T，负责对机器人‘身体’运作进行仿真的物理引擎 Newton，以及作为机器人‘训练基地’的 NVIDIA Omniverse。”

物理引擎 Newton 开创机器人物理仿真新标准
机器人在仿真环境中的学习速度更快、安全性更高，但人形机器人关节结构、平衡控制和动作模式非常复杂，现有物理引擎的性能已经难以满足。全球超过 25 万机器人开发者亟需精准的物理仿真技术，以确保在仿真环境中教会机器人技能，同时安全可靠地迁移到现实世界。

今天 NVIDIA 宣布，由 Linux Foundation 管理、GPU 加速的开源物理引擎 Newton 已发布测试版本。该物理引擎由 Google DeepMind、Disney Research 与 NVIDIA 联合开发，基于 NVIDIA Warp 和 OpenUSD 框架构建，现已开放使用。

凭借 Newton 灵活的设计，以及兼容多种物理求解器的能力，开发者现在可以对非常复杂的机器人动作进行仿真，例如在雪地或碎石路面行走、操控杯子和水果等，并且能够成功地将这些动作部署到现实场景中。

包括苏黎世联邦理工学院机器人系统实验室、慕尼黑工业大学及北京大学在内的众多知名高校，以及机器人技术公司光轮智能，仿真引擎公司Style3D已经率先使用 Newton。

Cosmos Reason 为全新开源模型 Isaac GR00T N1.6 提升机器人推理能力
为了在物理世界中执行类似人类的任务，人形机器人必须能够理解模糊指令，并应对各种以前未见过的复杂情况。

最新发布的开源机器人基础模型 NVIDIA Isaac GR00T N1.6，即将在 Hugging Face 平台上线。这一模型将集成 NVIDIA Cosmos™ Reason——一款专为物理 AI 打造的开源、可定制的推理视觉语言模型。作为机器人的“深度思考大脑”，Cosmos Reason 能够利用已有知识、常识和物理原理，将模糊的指令转化为逐步执行的计划，从而应对新场景并泛化到多种任务中去。

Cosmos Reason 的下载量已超过 100 万次，目前在 Hugging Face 的物理推理模型排行榜上位居榜首。该模型还能够筛选和标注大量真实及合成数据，用于模型训练。Cosmos Reason 1 现已作为 NVIDIA NIM™提供，NVIDIA NIM是一款易于使用的 AI 模型部署微服务。

借助 NVIDIA Isaac GR00T N1.6，人形机器人可以同(tóng)时(shí)完(wán)成(chéng)移(yí)动和物体操控动作，其躯干和手臂拥有更大的活动自由度，能够完成各种高难度任务，比如推开较重的房门。

开发者还可以利用 Hugging Face 平台上的开源 NVIDIA 物理 AI 数据集，对 NVIDIA Isaac GR00T N 系列模型进行后训练。该数据集包含(hán)数(shù)千(qiān)条(tiáo)合(hé)成(chéng)及(jí)来(lái)自(zì)真(zhēn)实(shí)世(shì)界(jiè)的(de)轨(guǐ)迹(jī)数(shù)据(jù)，目(mù)前(qián)下(xià)载(zài)量(liàng)已(yǐ)超(chāo)过(guò) 480 万(wàn)次(cì)。

AeiROBOT、Franka Robotics、LG Electronics、光轮智能、Mentee Robotics、Neura Robotics、Solomon、Techman Robot 和(hé) UCR 等(děng)领(lǐng)先(xiān)机(jī)器(qì)人(rén)制(zhì)造(zào)商(shāng)，正(zhèng)评(píng)估(gū)采用(yòng) Isaac GR00T N 系(xì)列(liè)模(mó)型(xíng)来(lái)打(dǎ)造(zào)通用机器人。

面向物理 AI 开发的全新 Cosmos 世界基础模型
NVIDIA 宣布了开源 Cosmos 世界基础模型（WFM）的全新更新。该模型的下载量已超过 300 万次，开发者可通过文本、图像和视频提示，生成多样化数据，从而大规模加速物理 AI 模型的训练。

·即将推出的 Cosmos Predict 2.5 将三款 Cosmos 世界基础模型进行整合，集成为一个功能强大(dà)的(de)模(mó)型(xíng)，大(dà)幅(fú)降(jiàng)低(dī)了(le)复(fù)杂(zá)度，节省开发时间并提高效率。它支持更长时长的视频生成（最长可创建 30 秒视频），同时提供多视角摄像头输出，以实现更丰富的世界仿真效果。
·即将推出的 Cosmos Transfer 2.5 相比上一代模型，其生成结果速度更快、质量更高，而模型大小仅为上一代模型的 1/3.5。该模型能够根据真实的 3D 仿真场景和空间控制输入，比如深度信息、分割数据、边缘信息和高分辨率地图等，生成逼真的合成数据。

训练机器人抓取技能的新工作流
教会机器人抓取物体是机器人领域最具挑战性的任务之一。这不仅涉及机械臂的移动，还需要将抽象的指令转化为精准的动作，机器人必须通过反复试错才能掌握这项技能。

基于 NVIDIA Omniverse™构建的开发者预览版 NVIDIA Isaac Lab 2.3 新增了灵巧抓取工作流。该工作流通过自动化课程体系，在虚拟环境中对拥有多手指的机器人和机械臂进行训练，从简单任务开始，逐步提升难度。此工作流会调整重力、摩擦力、物体重量等参数，训练机器人在不可预测的环境中也能掌握技能。

Boston Dynamics 的 Atlas 机器人借助这一工作流学习抓取技能，其操控能力得到了显著提升。

包括 Agility Robotics、Boston Dynamics、Figure AI、Hexagon、Skild AI、Solomon 以及 Techman Robot 在内的领先的机器人公司，已经采用 NVIDIA Isaac 和 Omniverse 技术。

在仿真环境中评估机器人的习得技(jì)能(néng)
让(ràng)机(jī)器(qì)人(rén)掌(zhǎng)握(wò)一(yī)项(xiàng)新(xīn)技(jì)能(néng)（如(rú)拿(ná)起杯子或穿过房间）非常困难，在实体机器人上测试这些技能不仅耗时且成本高昂。

仿真技术为解决这一问题提供了途径，它能够在无数场景、任务和环境中测试机器人习得的技能。但即便在仿真环境中，开发者构建的测试场景往往零散且简单化，无法真实反映现实世界的复杂情况。在完美且简单的仿真(zhēn)环(huán)境中学会导航的机器人，一旦面临现实世界的复杂状况就会失败。

为了让开发者无需从零构建系统，即可在仿真环境中开展复杂、大规模的评估，NVIDIA 与光轮智能联合开发了 NVIDIA Isaac Lab Arena——这是一个用于大规模实验和标准化测试的开源策略评估框架，该框架即将推出。

全新 NVIDIA AI 基础设施，为机(jī)器(qì)人(rén)工(gōng)作(zuò)负(fù)载(zài)提(tí)供(gōng)全面(miàn)支(zhī)持(chí)
为(wèi)了(le)让(ràng)开(kāi)发(fā)者(zhě)充(chōng)分(fēn)利(lì)用(yòng)这(zhè)些(xiē)先进的技术和软件库，NVIDIA 推出了专为高要求工作负载设计的 AI 基础设施，包括：

·NVIDIA GB200 NVL72：这是一款集成了 36 个 NVIDIA Grace™ CPU 和 72 个 NVIDIA Blackwell GPU的机架式系统。各大云服务提供商已开始采用该系统，以加速 AI 训练和推理过程，包括复杂推理和物理 AI 任务。
·NVIDIA RTX PRO™服务器：为机器人开发的各类工作负载（包括训练、合成数据生成、机器人学习和仿真）提供统一架构。RAI Institute 已采用 RTX PRO 服务器。
·NVIDIA Jetson Thor™：搭载 Blackwell GPU，能够支持机器人运行多个 AI 工作流，实现实时智能交互，带来机器人端实时推理功能。这一突破对于高性能物理 AI 工作负载以及人形机器人等应用具有重要意义。包括 Figure AI、银河通用、Google DeepMind、Mentee Robotics、Meta、Skild AI 以及宇树科技在内的合作伙伴已采用 Jetson Thor。

NVIDIA 推进机器人研究进程
CoRL 收录的论文中，近半数引用了 NVIDIA 的相关技术，包括 GPU、仿真框架和 CUDA 加速库。这些技术已被卡内基梅隆大学、华盛顿大学、苏黎世联邦理工学院和新加坡国立大学等领先研究实验室及机构广泛采用。

此次 CoRL 还重点展示了斯坦福视觉(jué)与(yǔ)学(xué)习(xí)实(shí)验(yàn)室(shì)开(kāi)展(zhǎn)的(de)机(jī)器(qì)人(rén)学(xué)习(xí)基(jī)准(zhǔn)测(cè)试(shì)项(xiàng)目(mù) BEHAVIOR，以(yǐ)及(jí)由(yóu)北(běi)京(jīng)大(dà)学(xué)开(kāi)发(fā)的(de)用(yòng)于(yú)推(tuī)进(jìn)基(jī)于(yú)视(shì)觉(jué)的(de)触(chù)觉(jué)机(jī)器(qì)人(rén)研(yán)究的高性能仿真平台 Taccel。

想要了解更多 NVIDIA 的机器人研究成果，请关注 9 月 27 日至 10 月 2 日在首尔举办的 CoRL。

- 全球无序抓取市场的领导者