如何使用Piper RL来训练一个简单的任务
扫描二维码
随时随地手机看文章
这个存储库包含Piper RL的简单演示代码,展示了如何使用Piper RL来训练一个简单的任务:到达目标,该任务要求Piper的夹持器的中心达到指定的目标位置,而不要求Piper的末端执行器的结束姿势,通过简单的奖励函数实现。该存储库提供了两个模拟器下的训练示例:Mujoco和Genesis。
存储库
Piper_rlAgilex-College
环境依赖性
•安装与RL相关的依赖项
•安装与genesis相关的依赖项
•PytorchInstall Pytorch,并根据CUDA版本选择相应的安装命令。在链接中找到适用于CUDA版本的Pytorch命令。以CUDA 12.9为例,安装命令如下:
•使用命令安装Genesis World:
•安装Mujoco
《创世纪》的例子
加载创世纪中的Piper模型
运行genesis_demo / hello_genesis.py
您可以看到成功加载了Piper模型。
控制派珀模型在创世纪
运行genesis_demo / control_piper.py
你可以看到派珀根据设定的位置移动。
实现创世纪中多个piper的并行仿真
运行genesis_demo / multi_piper.py
在创世纪中实现多个风笛手的并行训练
运行piper_rl_genesis.py
你可以看到多个风笛手试图接近设定位置。
启动张sorboard查看多个风笛手在训练期间的奖励变化:
基本步骤实现派珀Env在创世纪
•初始化环境
•设计奖励功能
•设置阶跃函数
Mujoco例子
在Mujoco对多名风笛手进行并行培训
运行piper_rl_mujoco.py
启动张sorboard查看多个风笛手在训练期间的奖励变化:
在Mujoco测试训练好的模型
运行piper_rl_mujoco.py
你可以看到派珀成功到达目标位置。
本文编译自hackster.io





