更适合机械宝宝体质的操作系统,竟然内置LLM!

工程师们一直在试图搭建更智能、可靠的机器人,比如之前火爆全网、来自波士顿动力公司的机器狗spot。它可以轻松上下楼梯、搬运重物、巡查街道,等等。
波士顿动力公司机器狗spot按下把手开门通过
机器狗由一个运行着android系统的遥控手柄控制,人们可以通过摄像头随时查看它的状态,并提供指引爬上爬下、行走翻身。这当然很棒,但当我们想给机器人传达更复杂的动作指令时,在手柄上相应的操作就繁琐了很多。能不能开发出一种更易用、直观的人机交互方法,能让我们更轻松地发送指令给机器人呢?与其在一个小屏幕上戳来戳去控制不同的机械参数,能不能直接告诉机器人具体的指令,让它去做什么呢?
近日,由李飞飞教授及来自斯坦福大学、加州理工、清华大学和英伟达的几位学者组成的团队(yunfan jiang,agrim gupta,zichen zhang,guanzhi wang,yongqiang dou,yanjun chen,li fei-fei,anima anandkumar,yuke zhu,linxi fan)发推,分享他们全新的研究结果:vima(vision-and-language navigation with multi-modal transformers),一个使用多模态提示执行各类任务的机械体操作系统。
也就是说,在prompt中输入文字、图片、视频,或任意的组合,vima就可以控制机械臂执行相应的动作。
vima将多模态提示用于任务规范
vima能做什么?场景事例
输入指令「把形状一样的物品放到绿色碗(图片)里」给vima。
vima通过分析自然语言提示和图像提示,识别出所有物品的位置,找到形状一样的两个圆柱体,再找到和绿色碗,最后操作机械臂一次一次把两个圆柱体放到了碗里。
输入指令「把图示物品(彩虹方块)扫到图示物品(红框)内,不触碰图示物品(黄线)。」给vima,系统识别出所有物件的位置,随后按照指示操作机械臂把彩虹方块扫到红框里,不触碰黄线。
最后来看这个例子。
我们甚至可以在prompt教给它新的视觉概念,输入指令「这是一个zup ,这是一个blicket 。将红色的wug放在绿色的blicket上。」
vima识别到所有物体后,操作机械臂执行相应动作。
机械臂系统的组成结构
vima主要由以下几个部分组成:
transformer编码器和解码器:用于对多模态提示进行编码和机器人臂的控制进行解码。
视觉和语言模块:用于处理视觉和语言输入,并将它们转换为transformer可以处理的令牌序列。
动作执行器:用于将机器人臂的控制信号转换为物理动作,并将其发送到机器人控制器。
数据集和基准:用于评估和比较不同的机器人学习方法,并提供训练和测试数据。
物理仿真器:用于在虚拟环境中模拟机器人的行为,并提供快速的反馈和调试机制。
这些组件共同构成了vima的核心部分,使得它能够接收多模态提示并执行各种机器人任务。 
在vima中,gpt-3模型在第一部分被用作解码器,用于生成导航指令,以指导机器人在环境中执行导航任务。具体来说,vima-gpt是一个仅包含解码器的架构,它通过对多模态提示进行编码,自回归地解码给定指令和交互历史的下一个动作,控制机器臂的运动。连接硬件后的vima成为了“一个具有体现性的ai代理:它可以感知环境并逐步在物理世界中采取行动。”fan说到。
软硬件结合的ai系统能做什么
团队共实现了17个不同的任务,分为6大类:简单物体操作(simple object manipulation)、视觉目标达成(visual goal reaching)、新概念理解(novel concept grounding)、单次视频模仿(one-shot video imitation)、视觉约束满足(visual constraint satisfaction)、视觉推理(visual reasoning)。
 fan在他的推文中提及:“多模态提示使得任务规范对用户来说更加容易和灵活。通过一个单一的模型,vima将视觉目标达成、从视频演示中进行一次性模仿、学习新概念以及满足安全约束等多种任务统一起来。而在以前的工作中,每个任务都需要不同的训练流程。”
作为一个机器人控制的框架,vima可以扩展成为极其强大的工具。像是一个实体的小爱同学,在学习完所有的步骤和物品之后,它可以你成为现实生活里的左膀右臂,例如:
家务。告诉它你想吃西红柿炒鸡蛋,vima在厨房里找到材料、开火、放糖(北方同学大喜),自动化炒菜。
教育。在学校的自习课替老师回答问题,并在黑板上拿粉笔写笔记,为学生提供定制练习和反馈。
娱乐。投篮后每次替你捡球送水的女同学,一个vima机器人就能替代,甚至更体贴。
当然,上面的例子过于理想了,但并不是不可能实现。
模型结构:编码-解码转换器
结语
vima作为一个仍在开发中的基础模型,为智能机械体的发展方向指明了更切实的发展方向。它有可能使机器人更智能、更有用。而如此强大的工具将其所有内容全部开源:代码、预训练模型、数据集和物理仿真基准都可以免费获取和使用!代码的透明度和可重复性被提高,更多的人可以使用和改进vima框架,促进了合作和知识共享,这对推动机器人学习领域的发展起到了巨大的作用。


全新15英寸独显超极本宏碁M3亮相
美国力科示波器的历史
公牛集团披露2020年上半年年报
5G工业专网+智慧炼钢应用重磅发布
遥控电风扇维修电路图
更适合机械宝宝体质的操作系统,竟然内置LLM!
【节能学院】电气火灾监控系统预防高层小区电气火灾的发生
如何用示波器欠幅触发来捕获信号
小米POCO品牌独立,下一代产品POCO F2即将发布
苹果新一代iPhone或将要舍弃掉3D Touch
我们可以看到什么样的人工智能?
PRBTEK分享美国Tektronix交直流电流钳A622产品手册
美国推首个物联网安全法案!引发业内争议
三星拓展新研发中心 开发逻辑晶圆代工制程
一些常见漏洞可轻易导致IoT设备丧失控制权,摄像头成为“最不安全设备”
微软Surface对抗iPad 低价位才能获竞争优势
智能水肥一体化首部系统之过滤器介绍
嵌入式开发需要学习什么?
农田小气候气象站的功能特点
“掺硅补锂电芯”技术是什么