设计一个带有 XLeRobot 的大脑机器人

时间：2026-03-24 13:46:33

关键字：机器人 GR00T AR

手机看文章

扫描二维码
随时随地手机看文章

[导读]我们希望赋予机器人大脑——不仅仅是动作，还要有理解能力和目标意识。该项目是“2025 年 Seeed 构建搭载 NVIDIA Jetson Thor 的烹饪与家用机器人”黑客马拉松活动的一部分。

我们希望赋予机器人大脑——不仅仅是动作，还要有理解能力和目标意识。该项目是“2025 年 Seeed 构建搭载 NVIDIA Jetson Thor 的烹饪与家用机器人”黑客马拉松活动的一部分。

什么是“脑机机器人”?

“Brainbot”

这是一个模块化的远程操作与学习平台。它包含一个统一的远程操作系统、演示数据收集系统、推理系统以及可视化系统。在运行时可以进行模式切换，并且您可以从世界任何地方实时监控您的机器人的动作状态和摄像头流。此外，它还支持多设备、不依赖特定机器人，并且完全无线化!

该脑机接口与 Huggingface 的 Lerobot 中的任何机器人定义都兼容，并且其数据格式和流程是 Lerobot 执行方式的定制化镜像。

我们自行开发了一种名为 GR00T 的模型，这是一种基于身体动作的策略模型，能够通过人类示范进行学习，用于执行诸如家庭相关的任务，例如：

•折叠衣物、整理玩具、堆叠积木

•打开/合上抽屉，将物品放入篮子中

•取水 / 拿水

•季节模式：与孩子们一起进行“万圣节糖果派对”，分发糖果，清理包装纸，清理纸杯

其工作原理

服务提供商架构

任何动作提供者，例如空闲模式、远程操作模式或人工智能动作模式，都托管在专用的服务服务器上。这些服务服务器与一个命令服务器进行通信，该命令服务器将状态发送至机器人服务器。在命令服务器中，模式调度器负责管理不同动作提供者的切换。

任何动作提供者，例如空闲模式、远程操作模式或人工智能动作模式，都托管在相应的专用服务服务器上。这些服务服务器与一个命令服务器进行通信，命令服务器将状态发送至机器人服务器。在命令服务器中，一个模式调度器负责管理不同动作提供者的切换。

当然，所有的状态信息和摄像头画面都会实时传输至一个网络服务器，这样您就可以从全球任何地方监控机器人。这些画面还被用于某些远程操作模式中，比如增强现实模式，在这种模式下，您可以直接通过头戴设备查看所有画面。

运行模式切换

•AR 超级操作(Quest 3)：在混合现实环境中实现全 3D 控制及标注功能

•Joy-Con / 游戏手柄远程操控：直观的操纵杆控制，便于快速收集数据

•领导者-跟随者手臂远程操作：用于精细操作的双臂物理镜像模式

•人工智能推理模式：直接在 Jetson Thor 上运行经过训练的 GR00T 策略

•数据收集模式：与勒罗伯特的数据传输管道及格式保持一致

所有模式均通过一个统一的接口进行通信，该接口能够同步关节状态、动作和视频信号——从而实现人机控制与人工智能控制之间的无缝切换。

真实 + 模拟数据管道

•我们在现实世界中以及在 NVIDIA Isaac 实验室的模拟环境中都收集了数据。

•来自 Quest 3 增强现实远程操作(手部追踪 + 体态捕捉)的真实数据

•来自艾萨克实验室远程操作、强化学习流程以及领域随机化的模拟数据

•视觉+惯性测量单元同步定位与地图构建技术，用于实时场景重建、地图绘制以及三维感知对齐。

训练 GR00T 模型

•GR00T 模型学习的是基于语言条件的视觉运动策略，这些策略将感知、意图和控制联系在一起。

•利用远程操作数据，我们训练了相应的策略，使其能够将相机图像和状态输入映射为操作指令。

•在将技术应用于 Jetson Thor 之前，我们先在模拟环境中对模仿学习(用于短期技能的重现)和强化学习(用于长期优化)进行了探索。

网络可视化仪表盘

我们构建了一个基于网络的可视化界面，并与 Brainbot 的统一通信协议相连接。

•实时联合状态图

•机器人 RGB 画面的摄像头实时传输画面

这使得在训练或远程操作期间能够轻松监测机器人内部的状态——这对于“人机协作”模式下的监督工作至关重要。

部分代码1：

代码2：

代码3：

本文编译自hackster.io