机器人也能纯视觉控制？MIT华人博士团队登上Nature主刊

【导语】电子发烧友网讯，近年来，“纯视觉”技术在智能驾驶领域备受瞩目，特斯拉、小鹏等企业已全面投入其中。而在机器人领域，尽管传感器应用广泛，但一篇刊登在Nature主刊上的论文却展示了“纯视觉”方案的新突破。麻省理工学院（MIT）的研究团队提出，受人类感知启发，采用视觉运动雅可比场技术，仅通过单个视频摄像头即可控制机器人。该方案不仅降低了机器人自动化的门槛和控制成本，还为生物启发式机器人的实际部署开辟了新路径。

电子发烧友网报道（文/梁浩斌）“纯视觉”的概念在近几年的智能驾驶领域被提到的次数不少，特斯拉、小鹏、以及传闻准备重组的极越，都早已全面押注到“纯视觉”的智能驾驶技术。一些智驾方案商为了推动产品落地，也正在加速推出纯视觉的方案，以降低系统成本。

而在机器人领域，传感器的应用一直都是业界研究的核心，包括3D ToF相机、激光雷达、毫米波雷达、触觉传感器、各种力矩传感器等，在目前主流的机器人领域都有广泛应用。

然而最近刊登在Nature主刊上的一篇论文，展示了一个机器人“纯视觉”方案。

传统机器人控制方案

传统机器人是由高刚度材料精密加工部件构成，在结构上，通过低公差关节连接，可以简化为理想化的刚性连杆运动学链。而为了让系统了解目前机器人的状态，就需要使用多种传感器进行监测，比如在每个关节配备高精度的传感器，像角度编码器等，实时测量关节的状态变化，这些数据可以用于完整重建机器人的3D位姿，再通过基于动力学模型设计控制算法（如PID、MPC），将期望运动轨迹转换为执行器指令。

论文中提到，传统的机器人控制方案存在局限性。首先是依赖机器人预设的结构和传感器，要求机器人必须具有离散关节和嵌入式传感器，无法适用于缺乏传感器的软体或混合材料机器人。

其次，在使用柔性结构的机器人中，需要解决大变形、粘弹性、材料疲劳等复杂问题，传统的基于连续介质力学的模型计算成本过高，很难实现实时控制。同时，传统的模型无法处理关节间隙或者制造公差导致的非线性动态。

另外，因为模型对于机器人公差的要求非常高，依赖精密制造和高性能材料，成本过高，开发周期长，不利于机器人的普及。

“纯视觉”机器人控制方案有什么优势？

该论文由麻省理工学院（MIT）的多位研究人(rén)员(yuán)合(hé)作(zuò)完(wán)成(chéng)，其(qí)中(zhōng)论(lùn)文前(qián)三(sān)作(zuò)分(fēn)别(bié)是(shì)李(li)思(sī)哲(zhé)、张(zhāng)安(ān)南(nán)和(hé)陈(chén)博(bó)远(yuǎn)，均(jūn)于(yú)MIT计(jì)算(suàn)机(jī)科(kē)学(xué)与(yǔ)人(rén)工(gōng)智(zhì)能(néng)实(shí)验(yàn)室(shì)（CSAIL）攻读博士学位。

那为什么会想到用“纯视觉”来构建机器人控制系统？论文团队提到，这项工作的灵感是来自于人类感知，人类通过用游戏控制器来控制机器人，可以在几分钟内就学会拾取和放置物体，而我们唯一用到的传感器就是眼睛。

在论文中，该“纯视觉”机器人控制方案是使用了名为Visuomotor Jacobian Field（视觉运动雅可比场）的技术。这是一种机器学习方法(fǎ)，可(kě)以(yǐ)使(shǐ)用(yòng)单(dān)个(gè)视(shì)频(pín)摄(shè)像(xiàng)头(tóu)获(huò)得(de)的(de)数(shù)据(jù)来(lái)控(kòng)制(zhì)机(jī)器(qì)人(rén)。

首(shǒu)先(xiān)，团(tuán)队(duì)使(shǐ)用(yòng)12个(gè)消(xiāo)费(fèi)级(jí)RGB-D视(shì)频(pín)摄(shè)像(xiàng)头(tóu)捕(bǔ)获(huò)的(de)、执(zhí)行(xíng)随(suí)机(jī)生(shēng)成(chéng)命(mìng)令(lìng)的(de)多(duō)视(shì)图视频训练了框架，无需人工注释或专家定制即可学习控制新机器人。在进行训练后，这个方法仅(jǐn)使(shǐ)用(yòng)单(dān)个(gè)视(shì)频摄像头就能控制机器人执行期望的动作。

其中，视觉运动雅可比场的框架主要包含两个关键部分，首先是一个基于深度学习的状态评估模型，这个模型可以仅通过单一视频流就可以推断出机器人的三维状态，编码了它的三维几何形状和微分运动学，即可以确认在任何可能得指令下，机器人在三维空间中任何点的移动方式。

其次是一个逆动力学控制器，在二维图像空间或三维空间中一密集的方式将期望的运动参数化，实时计算并输出机器人控制指令。研究团队发现，将演示轨迹参数化为密集的点运动是控制各种类型机器人系统的关键，因为可变形和灵巧机器人的运动不能被单个三维框架上指定的刚性变换很好地约束，参数化使得广泛的系统可以模仿基于视频的演示。

最终，通过该方法获得了跨平台的机器人控制能力。团队在使用16自由度的商用Allegro灵巧手进行测试时，关节角度误差可以小于3°，指尖位置误差小于4mm；使用3D打印的15气动通道软体手时，可以实现精准抓取工具，并具备抗遮挡能力；在采用剪切拉胀材料的HSA柔性腕平台上应用时，附加350g负重后仍实现7.3 mm精度；采用3D打印的Poppy教育机械臂，零部件公差较大的情况下，误差可以小于6 mm。

另外该方案能够实现无专家干预以及机器人的泛化能力，可以自动发现机器人的运动学结构，无需标注执行器与部件的对应关系。同时训练数据虽然仅包含随机的命令，但可以泛化到未被训练的运动。

采用该方案进行机器人控制，可以显著降低机器人自动化的门槛，降低机器人控制成本。其中关键创新在于将传统机器人控制的建模问题转化为基于视觉的自监督学习问题，为生物启发式机器人的实际部署开辟了新路径。

- 全球无序抓取市场的领导者