【导语】MathWorks 机器人产品经理 YJ Lim 分享前沿成果:生成式 AI 正重塑机器人领域,让机器人更灵活易用。从传统独立模块到生成式 AI 端到端系统,变革显著。MathWorks 弥合前沿研究与实际应用鸿沟,MATLAB 和 Simulink 提供诸多有力工具。结合生成式 AI,机器人应用迎来新可能,MathWorks 诚邀您体验示例,共探生成式 AI 在机器人领域的无限潜力与未来走向 。
本文来自 MathWorks 博客,Autonomous System 自主系统栏目。
作者:YJ Lim,MathWorks 机器人产品经理
翻译:叶女士(人机版)
非常激动地和大家分享我们最近的一些酷炫成果:我们正在利用生成式 AI,让机器人变得更加灵活,使用起来也更加便捷!
生成式 AI 已(yǐ)成(chéng)为(wèi)近(jìn)年(nián)来(lái)最(zuì)具(jù)影(yǐng)响(xiǎng)力(lì)的(de)技(jì)术(shù)趋(qū)势(shì)之(zhī)一(yī),推(tuī)动(dòng)了(le)像(xiàng) deepseek,ChatGPT 这(zhè)样(yàng)的(de)工(gōng)具(jù),改(gǎi)变(biàn)了(le)我(wǒ)们(men)的(de)生(shēng)活(huó)和(hé)工(gōng)作(zuò)方(fāng)式(shì)。除此之外,生成式 AI 也正在重塑各行各业,机器人领域也不例外。在 MathWorks,我们非常期待探索这项技术如何(hé)简(jiǎn)化(huà)和(hé)提(tí)升(shēng)机(jī)器(qì)人(rén)运(yùn)行(xíng)的(de)方(fāng)式(shì),让(ràng)先(xiān)进(jìn)的(de)机(jī)器(qì)人(rén)技(jì)术(shù)变(biàn)得(de)更(gèng)加(jiā)易(yì)用(yòng)和(hé)多(duō)样(yàng)化(huà)。
该(gāi)领(lǐng)域的(de)一(yī)个(gè)典(diǎn)型(xíng)例(lì)子(zi)是(shì) Google’s Robotics Transformer 2 (RT-2) [1]。RT-2 展(zhǎn)示(shì)了生成式AI的巨大潜力,使机器人具备了前所未有的感知、规划和行动的适应能力。这些模型利用大规模网络数据,帮助机器人泛化知识、在非结构化环境中执行任务,并且只需极少的针对性训练。虽然前景令人振奋,但仍然面临一些挑战,比如如何将这些模型集成到现实世界的工作流程中——而这,正是 MathWorks 的用武之地。
从传统到生成式 AI 方法的转变
传统上,自主系统通常由感知、规划和控制等独立模块组成。虽然这些模块能够实现预期功能,但在集成和适应新环境时往往需要投入大量精力。

图示:现有的机器人任务实现方式——在传统机器人系统中,任务通常被分解为若干子任务,如目标检测、抓取和运动规划。感知模块负责检测并估算物体的姿态,而运动规划模块则计算任务执行所需的轨迹。在动态环境下,这些步骤往往需要多次重复执行,对于像放置(zhì)多(duō)个(gè)物(wù)体(tǐ)这(zhè)样(yàng)的(de)多(duō)步(bù)骤(zhòu)任(rèn)务(wu),会(huì)导(dǎo)致(zhì)系(xì)统(tǒng)变(biàn)得(de)复(fù)杂(zá)且(qiě)效(xiào)率(lǜ)低(dī)下(xià)。
以(yǐ)传(chuán)统(tǒng)的(de)感(gǎn)知(zhī)流(liú)程(chéng)为(wèi)例(lì):
目(mù)标(biāo)检(jiǎn)测(cè):可(kě)以(yǐ)使(shǐ)用(yòng) YOLOv4 检(jiǎn)测(cè)器(qì)对(duì)图(tú)像(xiàng)中(zhōng)的(de)物体进行识别(示例[2])。
姿态估算:通过多步流程估算被检测物体的三维位置和朝向(示例[3])。
训(xun)练(liàn)与(yǔ)部(bù)署(shǔ):每(měi)添(tiān)加(jiā)一(yī)个(gè)新(xīn)物(wù)体(tǐ)或(huò)更(gèng)换(huàn)环(huán)境(jìng),都(dōu)需(xū)要(yào)重(zhòng)新(xīn)训(xun)练(liàn)和(hé)配(pèi)置(zhì)系(xì)统(tǒng),这(zhè)不(bù)仅(jǐn)耗(hào)时(shí),而(ér)且(qiě)难(nán)以(yǐ)大(dà)规(guī)模(mó)推(tuī)广(guǎng)。

图(tú)示(shì):现(xiàn)有(yǒu)的(de)姿(zī)态(tài)估算方法实现机器人任务(参见此示例[4])。在现有的感知流程中,主要目标是检测图像中的物体并估算其三维姿态,通常会用到 YOLOv4 检测器。尽管这种方法有效,但需要大量的训练和姿态估算步骤,因此在面对新物体或新环境时,扩展和应用起来既繁琐又具有挑战性。
生成式 AI 则改变了这一传统做法,将感知、规划和控制集成到一个端到端的系统中。VLA(视觉-语言-动作)模型能够处理文本指令和摄像头图像,预测机器人动作,并根据反馈不断优化这些动作。这类模型具备以下特点:
基于 transformer 架构——与 ChatGPT 等模型采用相同的技术基础;
能够结合视觉和语言输入进行推理并生成相应动作;
作为“具身智能”系统,将抽象理解与实际物理动作相连接。
这种端到端的方法大大简化了开发流程,使机器人更容易适应新的任务和环境。

图示:基于 transformer 架构的机器人 VLA(视觉-语言-动作)模型能够根据文本指令和摄像头图像,在一个简化的步骤中预测机器人动作,这与(yǔ)传(chuán)统系统中任务分解、感知和运动规划等多个独立阶段不同。这些模型通过视觉反馈不断迭代优化动作,从而提升准确性,但在实际执行时仍需依赖底层控制器,并且在真实应用中需要安全层来保障可靠性。与 ChatGPT 和 DALL-E 等模型不同,VLA 模型通过将决策过程融入物理机器人系统,实现了“具身智能”。
生成式 AI 与机器人技术在 MathWorks 的结合
在 MathWorks,我们致力于将生成式 AI 领域的前沿研究与机器人实际(jì)应用之间的鸿沟弥合。我们 MATLAB 和 Simulink 中的工具为机器人基础模型提供了有力补充,例如:
即插即用:可直接在 MATLAB 和 Simulink 中访问和部署此类模型。
测试验证:利用生成式模型的输出,仿真机器人动力学、优化运动规划和轨迹控制(通过 Robotics System Toolbox)。
三维可视化:逼真的3D动画将机器人行为生动展现,便于在仿真环境中评估性能。
安全保障:为机器人系统的现实应用提供验证和确认工具,确保安全关键型场景的可靠性。
真实部署:支持从仿真无缝过渡到实际部署,包括在资源受限设备上的测试或利用云端推理。
例如,我们开发了一个名为“RobotPolicy”的 Simulink 模块,可与基础模型集成,在闭环系统中展示其能力。该模块能够接收任务指令和视觉观测,输出机器人动作,并支持如 RT1-X 和 Octo 等预训练的小型模型。

图示:在 Simulink 中仿真和测试机器人基础模型。Simulink 中的“RobotPolicy”模块可以集成来自 HuggingFace 等平台的基于 Python 的基础模型。它能够处理任务指令和观测图像,生成机器人动作,明确指定末端执行器的位置和姿态。整个工作流程包括自然运动的位姿控制、具有真实感的 3D 仿真环境,以及动作的迭代生成直至完成任务,从而实现生成式 AI 在机器人领域的无缝测试与部署。
现实应用与未来展望
结合 MATLAB 和 Simulink 的(de)生成式 AI 为各类机器人应用领域带来了令人兴奋的新可能,例如:
零样本部署:得益于基础模型在多样化数据集上的广泛训练,机器人能够在从未见过的环境中执行任务。
涌现能力:不仅能执行基础指令,机器人还可完成需要推理的复杂任务,比如挑选健康饮品或理解符号化指令。
仿真驱动开发:高保真仿真有助于优化模型和加速测试,缩小仿真与现实部署之间的差距。
针对特定任务的微调:借助基础模型中学到的先验知识,机器人仅需极少的数据就能适应新任务或新环境。例如,只需少量样本,便可在数小时内完成对高精度操作或长时序任务的模型微调。
亲自体验
我们非常乐意帮助您探索生成式 AI 如何变革机器人工作流程。目前,我们准备在 GitHub 上发布示例,同时您也可以直接联系我们,申请试用代码的访问权限。
这个示例将展示:
机器人基础模型与 Simulink 的集成
机器人任务的仿真与可视化
如何将这些模型适配到具体应用中
欢迎联系我们获取试用代码,亲自体验生成式 AI 带来的各种可能。我们期待您的反馈和宝贵见解!
加入讨论
生成式 AI 仍在不断发展,提升成功率和实现可扩展性等问题仍需攻克。随着更多数据和高保真仿真的出现,我们相信该领域将会快速进步。在 MathWorks,我们很高兴能够参与这一进程,并期待听到您对生成式 AI 在机器人领域创造新机遇的看法。
欢迎分享您的想法,并亲自试用 GitHub 上的示例,体验这些创新应用的可能性:
您目前是否在探索生成式 AI 在机器人领域的应用?在您看来,生成式AI在哪些机器人应用中能够产生重大影响?
机器人VLA基础模型(如 Google 的 RT-X 和 Covariant 的 RFM-01)可以实现端到端的任务处理(涵盖感知、规划和执行)。您认为这些模型有可能取代传统算法吗?
机器人基础模型在实际部署中仍需底层控制器、额外的安全机制和大量测试。您认为基于模型的设计(Model-Based Design)能否在保障这些模型功能安全方面发挥关键作用?
MATLAB/Simulink 为基础模型的连接、仿真、测试和部署提供了便捷工具。您是否有兴趣将 MATLAB/Simulink 用于这些用途?