一个开源的低成本机器人学习平台ROBEL

为了让机器人研究走向大众,加州大学伯克利分校(uc berkeley)和谷歌大脑的研究人员提出了一个开源的低成本机器人学习平台robel(roboticsbenchmarks for learning with low-cost robots)。
robel可以作为快速实验平台,支持各种实验需求,以及新的强化学习和控制方法的开发,同时提供主要用于促进现实世界物理硬件研究和开发的基准任务。其由d’claw和d'kitty组成,d'claw是一个有三只手臂的机械臂型机器人,可以帮助学习灵巧的操作任务;d'kitty是一个有四条腿的机器人,可以帮助学习灵活的腿部运动任务。该机器人平台具有低成本、模块化、可靠性高、易于维护等特点,并且功能强大,可支持基于硬件的强化学习。
图中左:十二自由度d'kitty;中:9 自由度d'claw;右:功能齐全的d'claw 装置d’lantern。
为了使机器人成本便宜和易于构建,研究人员基于现成的组件和常见的原型工具(3d打印或激光切割)设计了robel。该设计很容易组装,只需要几个小时即可构建。
为了使机器人成本低且易于构建,研究人员基于现成的组件和常用的原型制作工具(3d打印或激光切割)设计出robel,并提供详细的零件清单、组装说明和入门软件说明。robel设计易于组装,仅需几个小时即可构建。
谷歌设计了一套对 d’claw和d’kitty两个平台都适用的任务,可用于对现实世界的机器人学习进行基准测试。robel的任务定义包括密集和稀疏任务目标,并在任务定义中引入硬件安全指标,例如,指示关节是否超过“安全”操作界限或作用力阈值。此外,robel还为所有任务提供模拟器,以促进算法开发和快速原型设计。d’claw 任务主要围绕三种常见的操作行为展开:摆形(pose)、旋转(turn)和拧(screw);d’kitty任务主要围绕三种常见的移动行为——站立、定向和行走展开。针对这些基准任务,研究人员评估了几种深度强化学习方法,评估结果和最终策略被作为baseline包含在软件包中以供比较。
robel平台支持直接的硬件训练,迄今已积累了超过1.4万h的实际经验。为了确保平台和基准方法的可重复性,研究人员通过两个不同的实验室分别对robel进行了研究,本研究仅使用软件分发和文档、不允许亲自访问,利用robel的设计文档和组装说明,两者都可以复制两个硬件平台。基准任务训练在两个实验室分别构建的机器人上进行,实验表明,在两个不同地点打造的两个d'claw机器人,它们不仅训练进度相似,而且最终收敛到了相同的性能,这说明robel基准具备良好的可重复性。
robel在各种强化学习研究中都非常有用。d’claw平台是完全自主的,可以在很长一段时间内维持实验的可靠性,而且可以使用刚性和柔性对象的各种强化学习范例和任务改进实验。重要的是,d'claw平台是高度模块化的,而且具备高度可重复性,便于进行扩展实验。通过扩展设置,研究人员发现多个d'claws可以通过共享经验更快地对任务进行集体学习,通过共享sac的分布式版本的硬件训练流程,其可以面向多个目标任务实现任意角度的结合。在多任务定制中,完成五个任务只需要单个任务经验的2倍时间即可。
同时,研究人员成功地在d’kitty平台上部署了强大的移动策略,比如,d'kitty可以在“盲眼”条件下在室内和室外地形上稳定行走,展现了步态的稳健性。
具体而言,在杂乱的室内环境行走时,通过mujoco模拟通过自然策略梯度训练的sim2real策略,机器人可以在随机扰动的条件下实现行走,并跨过障碍物;在布满碎石和树枝的室外环境行走时,通过自然策略梯度在mujoco模拟中训练的sim2real策略具有随机的高度场,机器人可以学习在分布着碎石和树枝的户外环境中行走;在室外斜坡和草丛环境中,通过自然策略梯度在mujoco模拟中训练的sim2real策略具有随机高度场,机器人可以学习在缓坡上行走。
当d’kitty收到有关其躯干和场景中目标的信息时,其可以学会与表现出复杂行为的目标进行交互。比如,通过hierarchicalsim2real训练的策略可以学习躲避移动障碍物,到达目标位置;通过hierarchical sim2real训练的策略学习将目标推向移动目标(由手中的控制器标记);双机器人协同-通过hi-herarchical sim2real训练的策略,可以学习协调两个d'kitty机器人,将沉重的障碍物推向目标位置。
总之,robel可以满足新兴的基于学习范式的需求,这些范式需要高度的可扩展性和弹性。

为什么要使用继电器
骁龙835亚洲首秀,官方确认小米6中国首发骁龙835,三星S8国际首发
长江存储推出两款致钛系列消费级SSD产品,满足高阶用户的需求
NAND Flash需求9月有望开始回温
频谱分析仪在使用中的注意事项
一个开源的低成本机器人学习平台ROBEL
vivo发起对小米的攻势,vivo即将赶超小米
英特尔三季度全球微处理器市场份额增至83.7%
锦通包税进口绝对优势
中国房价称霸全球!北京房价均降1万还是买不起,房价排名北京第二第一竟然是它!
编程面试最常见的14种模式
x86份额止跌回升,成功地从AMD嘴里夺回一块肉
我国构建全球首个星地量子通信网:跨度 4600 公里,集成 700 余条星地链路
中国移动启动了全球最大的“5G+北斗高精定位”系统
Intel至强W9-3495X和AMD锐龙线程撕裂者PRO 5000WX对比介绍
不畏艰险,勇于挑战|路虎的XR虚拟拍摄之旅
波兰如果不让华为参与5G开发将会导致5G网延迟推出
mW范围内的机器视觉使物联网端点推理变得实用
智能手机商又出新招,开始研发折叠屏手机
厚积薄发,打造消费电子行业盛世展会—CEEASIA2023旧貌换新颜