当前位置:首页 > 原创 > 刘岩轩
[导读]在这两天召开的2025年世界机器人大会,成了人形机器人的技能比拼大舞台,它们竞相登台,跳舞、踢球、写毛笔字、当售货员...无所不能,我们仿佛置身科幻电影之中。很多人笃信,具身智能即将实现从0到1的突破,迎来自己的ChatGPT时刻。然而,技术瓶颈让这一愿景仍需时日。NVIDIA、宇树科技和银河通用等领军力量,正在攻克模型、数据和硬件三大卡点,力图让通用人形机器人成为现实。

在这两天召开的2025年世界机器人大会,成了人形机器人们技能比拼的赛场。它们竞相登台,跳舞、踢球、写毛笔字、当售货员...无所不能,我们仿佛置身科幻电影之中。很多人笃信,具身智能即将实现从0到1的突破,迎来自己的ChatGPT时刻。然而,技术瓶颈让这一愿景仍需时日。NVIDIA、宇树科技和银河通用等领军力量,正在攻克模型、数据和硬件三大卡点,力图让通用人形机器人成为现实。

我们有幸参加了英伟达在WRC期间召开的媒体活动,NVIDIA高级副总裁Rev Lebaredian、宇树科技创始人王兴兴以及银河通用创始人王鹤分享了他们对人形机器人规模化商用的洞见。他们一致认为,人形机器人不仅承载着人工智能从“信息世界”迈向“物理世界”的宏大愿景,更有望撬动数万亿美元的产业革命。然而,通往这一未来的道路并不平坦,具身智能模型的通用性、仿真到现实(Sim2Real)的数据瓶颈以及硬件性能的物理极限,仍是人形机器人规模化爆发的三大关键卡点。


模型瓶颈:提升泛化能力,加速模型收敛

人形机器人的核心在于“具身智能”(Embodied AI),即让机器人在物理世界中理解环境、执行任务的能力。然而,当前具身智能模型架构碎片化、通用性和闭环能力仍是最大瓶颈。

宇树科技的王兴兴坦言,现有模型多局限于特定任务,难以应对复杂、多步骤场景。他指出:“你最大的问题目前其实还是整个具身智能的整个模型其实还是不够泛用性,包括它的实用性还是有更大的提升,这块其实是当下是最棘手的问题了。”

在工业场景中,机器人需完成从搬运到码垛、分拣的全流程闭环,但当前技术仅在部分环节接近人类水平。银河通用的王鹤以汽车制造为例,说明了这一挑战的复杂性:“搬运方面,银河通用最近展示的机器人视频里,其搬运速度已经接近人类水平……但是,搬运只是第一步。除了搬运,还需要实现码垛的闭环能力,只有搬运和码垛都完成闭环,机器人才能真正胜任整套工作流程。” 分拣任务的难度更高,尤其在高节拍、高精度的汽车产线上,机器人速度和精度仍难以媲美熟练工人。

模型架构的碎片化进一步放缓了进展。王兴兴提到,当前模型架构的不统一导致行业整体进展缓慢。如果能收敛成标准化的架构,结合当前的技术热潮,突破速度或将显著加快。他分享了宇树科技的尝试:早期探索用视频生成模型作为“世界模型”驱动机械臂的训练,但因算力限制未能深入。近期谷歌在视频生成模型上的突破,凭借更强的物理对齐能力,重新点燃了这一方向的希望。

要提升具身智能,强化学习(RL)与VLA的结合成为一条关键思路。宇树科技利用NVIDIA的Isaac Sim平台,通过强化学习训练机器人掌握舞蹈、跳跃等动作,显著减少了对真实数据的依赖。王兴兴表示:“不同于语言模型训练,动作训练只需少量真实数据,其余由强化学习完成。” 这一方法通过虚拟环境模拟复杂场景,加速了模型迭代。

此外,行业协作也在推动架构统一,NVIDIA的Isaac平台为模型训练提供了标准化框架,加速了泛化能力的突破。


数据瓶颈:Sim2Real的效率与鲁棒性提升

人形机器人训练所需的数据量巨大,尤其是动作与环境的配对数据。真实数据的稀缺性成为瓶颈,例如,训练机器人应对紧急情况(如自动驾驶中避让行人)无法通过真实测试实现,因为真实世界数据的获取成本高且存在伦理限制,所以具身智能训练高度依赖仿真技术,Rev Lebaredian强调:“如果你想构建一个能够在现实世界中行动且安全可靠的机器人系统,实际上唯一的选择就是使用仿真。”

然而,仿真到现实的精度差距(Sim2Real Gap)以及数据生成效率的限制,构成了另一大瓶颈。

高精度仿真需准确复现物理世界的规律,但这将会导致高昂的计算成本。Rev Lebaredian指出:“问题是这些高精度仿真计算成本极高,通常需要在大型计算机上运行数小时。”

此外,合成数据的生成依赖于高质量虚拟环境,但当前仍需人工构建复杂场景。生成具有真实物理参数(如摩擦系数、材料特性)的虚拟环境,需大量人工干预,效率低下。

银河通用通过NVIDIA的仿真引擎,生成了全球首个百亿级抓取和柔性物体操作数据集,显著提升了模型的鲁棒性。银河通用的王鹤分享了他们的经验:“真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。” 透过合成数据的泛化能力提升,才能确保模型在真实场景中的鲁棒性。

为解决Sim2Real与数据瓶颈,英伟达提出了AI驱动的仿真策略。Rev Lebaredian介绍:“我们正在利用AI本身作为提升仿真速度和精度的工具。” NVIDIA Cosmos项目旨在构建理解物理规律的“世界基础模型”,结合真实和仿真数据,生成更高效、精准的虚拟环境。这种方法有望实现数据生成的“自动驾驶”,大幅减少人工干预,加速人形机器人的商用进程。中国企业在这一领域已取得领先实践。银河通用的百亿级数据集,正是通过NVIDIA仿真引擎实现的突破。王鹤表示:“我们与NVIDIA一致认为,合成数据是推动具身智能快速落地的关键。” 未来,自动化仿真技术的进步,将进一步弥合Sim2Real差距,加速人形机器人的商用进程。


硬件瓶颈:性能物理极限的突破

尽管硬件成本已不再是主要障碍,但硬件性能的物理极限仍限制了人形机器人执行复杂任务的能力。王兴兴指出:“当前限制机器人执行更复杂动作的最大因素并非算法,而是硬件物理极限。例如,要将奔跑速度从每秒3~4米提升到10米,对硬件的改进需求极高。”

硬件性能的制约工业场景对机器人的速度、精度和能耗要求极高。例如,汽车制造中的分拣任务要求机器人快速、精准地抓取物体,但当前硬件难以达到熟练工人的效率。此外,灵巧手的开发也面临挑战,需要更高的自由度和控制精度。能耗和散热问题同样关键,机器人需在有限电力下完成实时计算,同时保持散热效率。

专用计算与全栈优化NVIDIA Jetson Thor芯片为硬件突破提供了方向,其计算能力比上一代提升7.5倍,每瓦性能提升3.5倍,I/O吞吐量提升10倍,满足了复杂推理和高带宽感知需求。Rev Lebaredian强调:“Jetson Thor与之前版本最大的不同是,现在具备了足够的计算能力,能够运行更大、更强的神经网络和模型,支持更复杂的推理任务。”

更重要的是,硬件突破需依赖全栈优化。NVIDIA通过芯片、算法和软件的协同设计,确保性能、能耗和散热的平衡。这种策略已在银河通用的实践中得到验证,其机器人凭借Jetson Thor实现了更快的运动规划和视觉处理。

王鹤分享:“银河通用率先将Jetson Thor应用于人形机器人,在演示中,配备该芯片的机器人展现出丝滑的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升。” 这一实践证明了硬件性能对复杂任务的支持。此外,宇树科技也在推进20自由度灵巧手的开发,目标是实现日常任务的精准操作。这些进展表明,硬件性能的提升正为模型推理提供更强支持,加速人形机器人商用落地。


未来:抓住窗口,产量突破和应用部署是关键

人形机器人正站在技术与市场的交汇处,承载着人工智能重塑物理世界的宏大愿景。具身智能的通用性、Sim2Real与数据瓶颈、硬件性能的极限,是规模化爆发的三大障碍,但强化学习、自动化仿真和专用计算正在为突破铺路。正如王兴兴所言:“AI领域充满了可能性,往往一个灵光一闪的创意就能带来突破。” 他预测,未来几年机器人出货量有望每年翻倍,行业正处于快速成长阶段。中国的制造能力、人才储备和应用场景为其提供了独特优势。

王鹤则认为,未来十年,人形机器人市场有望超越工业机械臂,迈向万亿级规模。“预计未来每三年人形机器人的产值会乘10,假设现在头部是卖1000台,三年后就是1万台,再三年后就是10万台。那么10万台级的量,如果卖几十万一台的话,就达到了1000亿,超过了整个工业机械臂的总产值。”

然而,有质疑声认为人形机器人可能重蹈元宇宙覆辙,成为昙花一现的技术热潮,在潮水消退之后便归为沉寂。因此,人形机器人的厂商,更需要抓住当前的窗口期,加快实现产量翻倍和行业应用规模化部署,从而实现模型和数据的飞轮,技术和商业的飞轮,这两个飞轮效应的构建,将会真正推动人形机器人走向爆发。而我们也期待这场机器人的盛筵,以中国为中心,在全球铺开。

Rev Lebaredian指出:“中国拥有大量聪明、受过良好教育且充满热情的AI研究人员和开发者,这样的生态体系和制造规模是其他国家难以匹敌的。”全球协作同样不可或缺:在NVIDIA的Isaac平台、Jetson Thor芯片和Cosmos项目的支持下,与宇树科技、银河通用等企业的协作,正推动人形机器人迈向万亿市场,开启通用智能的新时代。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭