机器人的“思考脑力”提升+“运动表现”增强,英伟达发布全新Isaac GR00T N1.6、Newton物理引擎和全新世界基础模型
扫描二维码
随时随地手机看文章
机器人的“思考脑力”提升+“运动表现”增强,英伟达发布全新Isaac GR00T N1.6、Newton物理引擎和全新世界基础模型
如何让人形机器人变得更加“类人化”?这是业界探索的方向。在学习能力上,我们期望机器人具备泛化能力、模糊指令的推理能力;在运动表现上,我们希望其能够应对真实物理世界的各种复杂环境、实现更好的环境感知和更高难度复杂动作。而在整个的训练过程中,我们又期待能够进一步缩短Sim2Real的差距,加速机器人的开发和部署。所有的这些背后,离不开强大的仿真引擎、推理模型和更全面的工具集。
在CoRL 2025上,英伟达发布了全新的Isaac GR00T N1.6人形机器人基础模型和Newton物理引擎。Isaac GR00T N1.6预集成了Cosmos Reason作为核心组件,将大幅提升机器人的“脑力”,而Newton来自与Google DeepMind、Disney Research合作的成果,将会增强机器人在复杂物理世界中的“运动表现”。除此外,英伟达也带来了全新的世界基础模型更新,包括即将推出的Cosmos Predict 2.5和Cosmos Transfer 2.5。
NVIDIA Newton:可微分物理能力提升复杂任务训练效率
NVIDIA Newton 是一个开源、GPU 加速的物理引擎,于今年3月在GTC San Jose首次宣布,由 NVIDIA 联合 Google DeepMind 和 Disney Research 共同开发,基于 NVIDIA Omniverse 平台和 OpenUSD 格式构建。该引擎专为机器人研究人员设计,旨在通过高保真、可微分的物理模拟加速机器人训练与开发。其 Beta 版本现已向所有机器人开发者开放,由 Linux Foundation 托管,确保其开源性和社区驱动特性。
Newton 的设计目标是解决机器人训练中的关键挑战,特别是人形机器人和其他复杂机器人系统在关节、平衡和运动方面的复杂性。它通过提供灵活、模拟器无关的架构,与多种机器人学习框架(如 Joker 和 NVIDIA Isaac Lab)无缝兼容。Newton 具备可微分物理能力,使机器人能够通过试错学习动作如何影响环境结果,类似于人类通过反复尝试优化行为。使用可微分物理模拟器训练控制策略,梯度可以直接从任务目标(如末端执行器位置)反向传播到控制输入。这种方式相比强化学习的路径更高效,样本利用率高,因此这种特性特别适用于训练机器人执行移动和物体操纵等复杂任务。
此外,Newton 支持多种求解器协同工作,能够处理复杂的多场景模拟,提升了其灵活性和扩展性。全球领先的学术机构,包括苏黎世联邦理工学院机器人系统实验室、慕尼黑工业大学和北京大学,已开始采用 Newton,用于机器人研究和开发。NVIDIA Omniverse和模拟技术副总裁Rev Lebaredian强调,Newton 的开源性质使其成为社区驱动的工具,旨在推动全球机器人学界的合作与创新。
通过 Newton,NVIDIA 为机器人开发者提供了强大的模拟工具,助力生成物理准确的合成数据,减少对成本高昂且潜在危险的现实世界数据的依赖,从而加速物理 AI 的开发和部署。
泛化能力提升,更具“类人”推理能力——NVIDIA Isaac GR00T N1.6集成“深度思考大脑”
自OpenAI 的 CLIP(Contrastive Language–Image Pretraining)模型的成功之后,VLA实现了处理静态视觉信息和语言关联方面的成功,为机器人感知环境奠定了基础。但Rev Lebaredian指出:“它们(VLA)尚未能够解决多步任务,也无法处理歧义或新奇体验。人类可以基于日常经验导航物理世界中多样化场景的长尾。但人形机器人需要推理能力来理解歧义指令并适应全新的、陌生的情境。”
换言之,现在的VLA模型很擅长认东西、找规律,但遇到需要多步操作、模糊指令或全新场景时就“懵了”。而我们人类靠日常经验能轻松应对各种复杂情况,但机器人要想做到类似的事,必须有“思考”、“推理”能力,能理解模糊的话、适应没见过的情景。而这就是NVIDIA Isaac GR00T N1.6将要帮助机器人“进化”的下一步目标。
此次发布的NVIDIA Isaac GR00T N1.6 是开源机器人基础模型的全新版本,即将登陆Hugging Face平台。相比Isaac GR00T N1.5,它最大的特点在于——集成了Cosmos Reason作为核心组件,能够大幅提升机器人在不同场景中的泛化能力。
从人类学习的角度看,泛化能力是一种核心认知机制。幼童通过有限互动学会用勺子吃饭后,能将技能泛化到不同餐具或环境,源于大脑提取抽象规则而非死记硬背。这种能力迁移到机器人,即从有限训练数据中习得知识,应用于未见环境、物体或任务,避免仅在特定场景有效。而推理能力是这种泛化的认知基础,通过语义解析、知识迁移和动态调整,机器人能理解模糊指令(如“拿那个东西”)并适应新场景(如未知厨房等)。通过推理能力来提取通用规则,然后才能实现机器人的泛化表现,实现机器人从“专才”向“通才”的转型,类似人类通过逻辑应对复杂世界。提升泛化需增强推理,如通过多模态训练或因果推理模块优化。
Cosmos Reason是一个开源且可定制的推理视觉语言模型,专为物理AI设计。而将Cosmos Reason引入 Isaac GR00T N1.6,就类似于为人形机器人注入一个“深度思考大脑”,它能处理模糊指令和从未见过的罕见场景,利用先验知识、常识以及物理原理,将这些指令转化为步步推进的行动计划,从而实现跨任务的泛化能力。这使得 Isaac GR00T N1.6在执行物理世界中的类人任务时显著提升了推理水平,不再仅依赖预训练数据,而是能实时规划和适应新环境,解决了传统机器人模型在泛化方面的瓶颈。
除了Cosmos Reason的引入外,Isaac GR00T 1.6 还增强了人形机器人的运动与物体操作能力,提供了更大的躯干和手臂自由度,使机器人能够应对更具挑战性的任务,例如打开沉重的门。
世界基础模型更新,加速Sim2Real进程
与基于互联网海量人类知识训练的传统大语言模型(LLM)不同,物理 AI 模型的训练面临数据稀缺的挑战。现实世界数据的采集成本高昂且存在潜在风险,预训练的局限性也限制了模型的迭代能力。机器人要实现从基础感知到高级智能的演进,就需要具备足够高质量的数据支持。通过人类演示和合成数据生成(结合强化学习和物理模拟),能够显著提升机器人的模型能力。
Rev Lebaredian强调,仿真对于开发和部署机器人至关重要,其作用主要体现在两个方面。首先,仿真是生成训练机器人智能所需数据的主要方式。机器人需要一种通用的智能,使其能够在物理世界中工作,而这种智能的训练依赖于物理准确、丰富多样且能够代表现实世界中各种情境的数据。由于在现实世界中收集这些数据的难度大、成本高,有时甚至在物理上不可行或存在危险,因此必须通过仿真来生成这些数据。其次,仿真在将新AI部署到物理机器人之前,用于测试其性能和安全性。在AI进入现实世界之前,我们需要确保其行为可靠,不会对自身或他人造成伤害,并能达到预期的表现。仿真提供了一个快速、安全且成本效益高的测试环境。因此,仿真不仅用于生成训练AI所需的适当数据,还用于以安全、可扩展的方式测试AI的性能,从而确保机器人在现实世界中的可靠性和安全性。
仿真是桥接虚拟与现实(Sim2Real)的关键桥梁,而英伟达正通过其最新创新来进一步强化这一桥梁。此次英伟达宣布将会带来世界基础模型的重大升级版,其中包括即将发布的Cosmos Predict 2.5和Cosmos Transfer 2.5。这一升级不仅能助力生成海量基于物理的合成数据,帮助开发者克服现实世界数据收集的瓶颈,还能无缝集成到Omniverse模拟环境中,实现更精确的场景构建和AI测试,让机器人开发变得更具可扩展性。
据悉,即将发布的Cosmos Predict 2.5能够从初始状态预测未来状态,实现三个独立模型的统一,从而减少后训练时间、复杂性和计算成本;其输出质量明显高于先前版本以及同等规模的开源模型;此外,它现支持多视图输出,适用于多传感器机器人和自动驾驶车辆,并能生成长达30秒的视频。
而即将发布的Cosmos Transfer 2.5则负责世界到世界(world to world)的风格转移,旨在弥合模拟环境和现实世界之间的感知鸿沟。其最新版本模型大小仅为上一代模型的 1/3.5,从而降低计算成本,并便于开发者增强和扩展训练数据。这些模型的结合,使得生成数百个虚拟的、传感器丰富的环境用于机器人训练成为可能,从而显著减少对现实世界数据的依赖。
从感知AI到物理AI,英伟达三台计算机加速行业协作
AI的快速发展正在推动技术从感知AI向生成AI、代理AI,最终迈向物理AI的转型。这一演进历程始于十多年前AlexNet的出现,AI由此进入大爆炸式发展阶段,感知AI时代正式。当时,神经网络专注于单一任务,如图像分类和语音识别。随后,Transformer模型的发明引领了生成AI时代,模型规模更大、训练数据更多,具备通用性,能执行多种任务。目前,我们正步入代理AI时代,自主系统能够在信息和知识领域使用工具、编写代码或执行复杂任务。紧随其后的是物理AI时代,代理AI被赋予物理实体,进入机器人领域。这一时代建立在过去十年的技术积累之上,尤其在自动驾驶汽车等特定机器人领域已显现成熟迹象。自动驾驶作为运输机器人的一种,因其主要任务是避免碰撞,相较于需与环境直接交互的通用机器人,技术实现相对简单,但仍是物理AI的重要起点。
Rev Lebaredian强调,构建物理AI和人形机器人是一项极其复杂的挑战,涉及众多行业和子任务,单一公司难以独立完成。所需的研究、工程以及商业模式创新规模庞大,因此需要整个行业生态系统的协作。英伟达在这一生态系统中定位明确,专注于为机器人和物理AI提供三种关键计算平台:一是嵌入机器人内部的Jetson Thor和IGX Orin计算机;二是生成机器人“大脑”的DGX和HGX AI工厂计算机;三是基于RTX Pro Blackwell平台的Omniverse模拟计算机,用于AI大脑的开发与测试。这些计算平台对机器人生态系统至关重要,但英伟达并非独自承担所有任务。行业需要其他公司开发机器人硬件、操作系统、管理工具以及特定场景的AI模型。英伟达的独特优势在于其广泛的合作网络,几乎所有从事物理AI或机器人的公司都在使用至少一种英伟达的计算平台,许多公司甚至同时使用两种或三种。这种合作模式凸显了英伟达在推动物理AI和机器人产业向前发展中的核心角色,同时也反映了行业协作的必要性,以应对机器人技术发展的复杂性和多样性。