当前位置:首页 > 原创 > 刘岩轩
[导读]在CoRL 2025上,英伟达发布了全新的Isaac GR00T N1.6人形机器人基础模型和Newton物理引擎。Isaac GR00T N1.6预集成了Cosmos Reason作为核心组件,将大幅提升机器人的“脑力”,而Newton来自与Google DeepMind、Disney Research合作的成果,将会增强机器人在复杂物理世界中的“运动表现”。除此外,英伟达也带来了全新的世界基础模型更新,包括即将推出的Cosmos Predict 2.5和Cosmos Transfer 2.5。

机器人的“思考脑力”提升+“运动表现”增强,英伟达发布全新Isaac GR00T N1.6、Newton物理引擎和全新世界基础模型

如何让人形机器人变得更加“类人化”?这是业界探索的方向。在学习能力上,我们期望机器人具备泛化能力、模糊指令的推理能力;在运动表现上,我们希望其能够应对真实物理世界的各种复杂环境、实现更好的环境感知和更高难度复杂动作。而在整个的训练过程中,我们又期待能够进一步缩短Sim2Real的差距,加速机器人的开发和部署。所有的这些背后,离不开强大的仿真引擎、推理模型和更全面的工具集。

在CoRL 2025上,英伟达发布了全新的Isaac GR00T N1.6人形机器人基础模型和Newton物理引擎。Isaac GR00T N1.6预集成了Cosmos Reason作为核心组件,将大幅提升机器人的“脑力”,而Newton来自与Google DeepMind、Disney Research合作的成果,将会增强机器人在复杂物理世界中的“运动表现”。除此外,英伟达也带来了全新的世界基础模型更新,包括即将推出的Cosmos Predict 2.5和Cosmos Transfer 2.5。


NVIDIA Newton:可微分物理能力提升复杂任务训练效率

NVIDIA Newton 是一个开源、GPU 加速的物理引擎,于今年3月在GTC San Jose首次宣布,由 NVIDIA 联合 Google DeepMind 和 Disney Research 共同开发,基于 NVIDIA Omniverse 平台和 OpenUSD 格式构建。该引擎专为机器人研究人员设计,旨在通过高保真、可微分的物理模拟加速机器人训练与开发。其 Beta 版本现已向所有机器人开发者开放,由 Linux Foundation 托管,确保其开源性和社区驱动特性。

Newton 的设计目标是解决机器人训练中的关键挑战,特别是人形机器人和其他复杂机器人系统在关节、平衡和运动方面的复杂性。它通过提供灵活、模拟器无关的架构,与多种机器人学习框架(如 Joker 和 NVIDIA Isaac Lab)无缝兼容。Newton 具备可微分物理能力,使机器人能够通过试错学习动作如何影响环境结果,类似于人类通过反复尝试优化行为。使用可微分物理模拟器训练控制策略,梯度可以直接从任务目标(如末端执行器位置)反向传播到控制输入。这种方式相比强化学习的路径更高效,样本利用率高,因此这种特性特别适用于训练机器人执行移动和物体操纵等复杂任务。

此外,Newton 支持多种求解器协同工作,能够处理复杂的多场景模拟,提升了其灵活性和扩展性。全球领先的学术机构,包括苏黎世联邦理工学院机器人系统实验室、慕尼黑工业大学和北京大学,已开始采用 Newton,用于机器人研究和开发。NVIDIA Omniverse和模拟技术副总裁Rev Lebaredian强调,Newton 的开源性质使其成为社区驱动的工具,旨在推动全球机器人学界的合作与创新。

通过 Newton,NVIDIA 为机器人开发者提供了强大的模拟工具,助力生成物理准确的合成数据,减少对成本高昂且潜在危险的现实世界数据的依赖,从而加速物理 AI 的开发和部署。


泛化能力提升,更具“类人”推理能力——NVIDIA Isaac GR00T N1.6集成“深度思考大脑”

自OpenAI 的 CLIP(Contrastive Language–Image Pretraining)模型的成功之后,VLA实现了处理静态视觉信息和语言关联方面的成功,为机器人感知环境奠定了基础。但Rev Lebaredian指出:“它们(VLA)尚未能够解决多步任务,也无法处理歧义或新奇体验。人类可以基于日常经验导航物理世界中多样化场景的长尾。但人形机器人需要推理能力来理解歧义指令并适应全新的、陌生的情境。”

换言之,现在的VLA模型很擅长认东西、找规律,但遇到需要多步操作、模糊指令或全新场景时就“懵了”。而我们人类靠日常经验能轻松应对各种复杂情况,但机器人要想做到类似的事,必须有“思考”、“推理”能力,能理解模糊的话、适应没见过的情景。而这就是NVIDIA Isaac GR00T N1.6将要帮助机器人“进化”的下一步目标。

此次发布的NVIDIA Isaac GR00T N1.6 是开源机器人基础模型的全新版本,即将登陆Hugging Face平台。相比Isaac GR00T N1.5,它最大的特点在于——集成了Cosmos Reason作为核心组件,能够大幅提升机器人在不同场景中的泛化能力。

从人类学习的角度看,泛化能力是一种核心认知机制。幼童通过有限互动学会用勺子吃饭后,能将技能泛化到不同餐具或环境,源于大脑提取抽象规则而非死记硬背。这种能力迁移到机器人,即从有限训练数据中习得知识,应用于未见环境、物体或任务,避免仅在特定场景有效。而推理能力是这种泛化的认知基础,通过语义解析、知识迁移和动态调整,机器人能理解模糊指令(如“拿那个东西”)并适应新场景(如未知厨房等)。通过推理能力来提取通用规则,然后才能实现机器人的泛化表现,实现机器人从“专才”向“通才”的转型,类似人类通过逻辑应对复杂世界。提升泛化需增强推理,如通过多模态训练或因果推理模块优化。

Cosmos Reason是一个开源且可定制的推理视觉语言模型,专为物理AI设计。而将Cosmos Reason引入 Isaac GR00T N1.6,就类似于为人形机器人注入一个“深度思考大脑”,它能处理模糊指令和从未见过的罕见场景,利用先验知识、常识以及物理原理,将这些指令转化为步步推进的行动计划,从而实现跨任务的泛化能力。这使得 Isaac GR00T N1.6在执行物理世界中的类人任务时显著提升了推理水平,不再仅依赖预训练数据,而是能实时规划和适应新环境,解决了传统机器人模型在泛化方面的瓶颈。

除了Cosmos Reason的引入外,Isaac GR00T 1.6 还增强了人形机器人的运动与物体操作能力,提供了更大的躯干和手臂自由度,使机器人能够应对更具挑战性的任务,例如打开沉重的门。


世界基础模型更新,加速Sim2Real进程

与基于互联网海量人类知识训练的传统大语言模型(LLM)不同,物理 AI 模型的训练面临数据稀缺的挑战。现实世界数据的采集成本高昂且存在潜在风险,预训练的局限性也限制了模型的迭代能力。机器人要实现从基础感知到高级智能的演进,就需要具备足够高质量的数据支持。通过人类演示和合成数据生成(结合强化学习和物理模拟),能够显著提升机器人的模型能力。

Rev Lebaredian强调,仿真对于开发和部署机器人至关重要,其作用主要体现在两个方面。首先,仿真是生成训练机器人智能所需数据的主要方式。机器人需要一种通用的智能,使其能够在物理世界中工作,而这种智能的训练依赖于物理准确、丰富多样且能够代表现实世界中各种情境的数据。由于在现实世界中收集这些数据的难度大、成本高,有时甚至在物理上不可行或存在危险,因此必须通过仿真来生成这些数据。其次,仿真在将新AI部署到物理机器人之前,用于测试其性能和安全性。在AI进入现实世界之前,我们需要确保其行为可靠,不会对自身或他人造成伤害,并能达到预期的表现。仿真提供了一个快速、安全且成本效益高的测试环境。因此,仿真不仅用于生成训练AI所需的适当数据,还用于以安全、可扩展的方式测试AI的性能,从而确保机器人在现实世界中的可靠性和安全性。

仿真是桥接虚拟与现实(Sim2Real)的关键桥梁,而英伟达正通过其最新创新来进一步强化这一桥梁。此次英伟达宣布将会带来世界基础模型的重大升级版,其中包括即将发布的Cosmos Predict 2.5和Cosmos Transfer 2.5。这一升级不仅能助力生成海量基于物理的合成数据,帮助开发者克服现实世界数据收集的瓶颈,还能无缝集成到Omniverse模拟环境中,实现更精确的场景构建和AI测试,让机器人开发变得更具可扩展性。

据悉,即将发布的Cosmos Predict 2.5能够从初始状态预测未来状态,实现三个独立模型的统一,从而减少后训练时间、复杂性和计算成本;其输出质量明显高于先前版本以及同等规模的开源模型;此外,它现支持多视图输出,适用于多传感器机器人和自动驾驶车辆,并能生成长达30秒的视频。

而即将发布的Cosmos Transfer 2.5则负责世界到世界(world to world)的风格转移,旨在弥合模拟环境和现实世界之间的感知鸿沟。其最新版本模型大小仅为上一代模型的 1/3.5,从而降低计算成本,并便于开发者增强和扩展训练数据。这些模型的结合,使得生成数百个虚拟的、传感器丰富的环境用于机器人训练成为可能,从而显著减少对现实世界数据的依赖。


从感知AI到物理AI,英伟达三台计算机加速行业协作

AI的快速发展正在推动技术从感知AI向生成AI、代理AI,最终迈向物理AI的转型。这一演进历程始于十多年前AlexNet的出现,AI由此进入大爆炸式发展阶段,感知AI时代正式。当时,神经网络专注于单一任务,如图像分类和语音识别。随后,Transformer模型的发明引领了生成AI时代,模型规模更大、训练数据更多,具备通用性,能执行多种任务。目前,我们正步入代理AI时代,自主系统能够在信息和知识领域使用工具、编写代码或执行复杂任务。紧随其后的是物理AI时代,代理AI被赋予物理实体,进入机器人领域。这一时代建立在过去十年的技术积累之上,尤其在自动驾驶汽车等特定机器人领域已显现成熟迹象。自动驾驶作为运输机器人的一种,因其主要任务是避免碰撞,相较于需与环境直接交互的通用机器人,技术实现相对简单,但仍是物理AI的重要起点。

Rev Lebaredian强调,构建物理AI和人形机器人是一项极其复杂的挑战,涉及众多行业和子任务,单一公司难以独立完成。所需的研究、工程以及商业模式创新规模庞大,因此需要整个行业生态系统的协作。英伟达在这一生态系统中定位明确,专注于为机器人和物理AI提供三种关键计算平台:一是嵌入机器人内部的Jetson Thor和IGX Orin计算机;二是生成机器人“大脑”的DGX和HGX AI工厂计算机;三是基于RTX Pro Blackwell平台的Omniverse模拟计算机,用于AI大脑的开发与测试。这些计算平台对机器人生态系统至关重要,但英伟达并非独自承担所有任务。行业需要其他公司开发机器人硬件、操作系统、管理工具以及特定场景的AI模型。英伟达的独特优势在于其广泛的合作网络,几乎所有从事物理AI或机器人的公司都在使用至少一种英伟达的计算平台,许多公司甚至同时使用两种或三种。这种合作模式凸显了英伟达在推动物理AI和机器人产业向前发展中的核心角色,同时也反映了行业协作的必要性,以应对机器人技术发展的复杂性和多样性。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭