从多模态大模型到通用具身智能体：方法与经验 - ENI文章 - ENI经济和信息化网

当前位置：首页 >文章发布 > 正文

从多模态大模型到通用具身智能体：方法与经验

来源：点云PCL 作者： dianyunPCL 2025-03-19 14:00:02

本文探讨了多模态大语言模型在传统语言与视觉任务之外处理不同领域问题的能力，特别关注具身智能、游戏、用户界面控制和规划等领域。为此提出了一种将 MLLM 适配为通用具身智能体的方法。

本文探讨了多模态大语言模型(MLLMs)在传统语言与视觉任务之外处理不同领域问题的能力，特别关注具身智能(Embodied AI)、游戏、用户界面控制(UI Control)和规划等领域。为此提出了一种将 MLLM 适配为通用具身智能体(Generalist Embodied Agent, GEA)的方法。GEA 是一个统一的模型，能够通过多具身动作分词器(multi-embodiment action tokenizer)在不同领域中进行自适应。GEA 采用监督学习，在大规模具身经验数据集上进行训练，并结合在线强化学习(RL)在交互式模拟环境中优化，我们探讨了开发此类模型所需的数据和算法选择。研究结果表明，跨领域数据训练和在线强化学习对于构建通用智能体至关重要。最终GEA 在多个基准测试中展现出对未见任务的强泛化能力，相较于其他通用模型和特定基准方法表现优越。

主要贡献

基础模型已在语言和图像理解任务中展现出广泛的能力。特别是多模态大语言模型(MLLMs)—在海量文本和图像数据上训练的多模态基础模型—在其训练模态(文本与图像)相关任务上表现出色。作为 MLLMs 的扩展，视觉-语言-动作(Vision-Language-Action, VLA)模型已成功应用于机器人和具身智能(Embodied AI)领域，以及网页代理和用户界面(UI)控制等任务。这些应用表明MLLMs 可广泛适用于多个领域，实现机器人控制、游戏操作和 UI 设备管理等多种具身控制任务。

由于许多领域之间具有相似性，因此一个核心问题是：如何训练一个单一智能体，使其能够在所有这些领域中具备通用能力。这一问题极具挑战性，因为不同任务涉及物理和几何推理，具身形式既有静态的，也有采用移动操控器共享形态的，应用通常需要长时规划，且许多任务是部分可观测的，需要对长序列观察进行推理。此外，跨领域联合训练可能带来互补效应，使单一智能体在多个领域的表现优于分别训练的特定领域智能体。

图 1. 通用具身智能体（GEA）是一个基于多模态大语言模型（MLLM）的智能体，能够根据自然语言指令完成多个领域和具身形式的任务，包括操控、规划、游戏操作和 UI 控制。首先，对预训练的 MLLM 进行监督微调（SFT），使用大规模具身经验数据集进行训练。随后，最终的 GEA 模型通过强化学习（RL）进一步优化。GEA 在未见环境中的泛化能力表现出色。

本研究提出了一种方法，将 MLLM 适配为一个通用具身智能体(Generalist Embodied Agent, GEA)，能够解决涉及操控(manipulation)、导航(navigation)、电子游戏(video game playing)和 UI 控制(UI control)等多个领域的大量任务。为了让 GEA 控制不同的具身形式，我们学习了一种统一的动作分词机制(tokenization mechanism)，适用于所有连续和离散动作空间。如图 1 所示，首先通过监督微调(SFT)适配预训练 MLLM，使其能够根据成功任务的轨迹预测动作。该 SFT 数据集涵盖 220 万条轨迹，数据来源包括人工标注和学习策略。然而SFT 方法受限于数据的多样性，导致智能体的鲁棒性不足。为此进一步在部分领域中使用在线强化学习(RL)进行训练，使 GEA 在交互式模拟环境中收集数据并自我学习。

实验结果表明，GEA 具有强大的通用能力。在多个基准测试中，它均达到当前最优水平，甚至在某些任务上超越或接近专用系统的表现。例如，在 CALVIN 操控基准测试中，GEA 在未见指令和背景下的成功率达到 90%，比类似方法高出近 10%，并接近专用系统的表现。在 Habitat 移动抓取任务中，GEA 在未见场景中的成功率为 83%，优于在真实模拟器状态上训练的强化学习策略。此外，在 Procgen 视频游戏测试中，GEA 达到了专家得分的 44%，比之前的专用模型高出近 20%。本研究进一步分析了 GEA 的通用能力与训练数据及基础 MLLM 之间的关系。实验表明，在 SFT 训练阶段使用跨领域数据比单独训练各个领域的数据更能提升通用性能。此外探讨了 RL 和在线数据收集在通用智能体训练中的作用，并通过实验验证了在线 RL 相较于迭代 SFT 或离线 RL 的优势。作为对社区的贡献，我们将发布 GEA 训练和评估代码，以及 GEA 模型本身。代码和模型的下载链接将在准备发布。

主要内容

通用具身智能体

问题设定

本研究关注的是基于语言指令的任务，并通过视觉观察来做决策。具体来说，问题被建模为目标驱动的部分可观察马尔可夫决策过程(POMDP)，其中包括观测空间、动作空间、目标空间和奖励模型。任务的目标由文本描述表示，智能体通过 RGB 图像进行观察，这些图像可以来自具身智能应用中的摄像头，或者视频游戏和 UI 交互中的屏幕截图。我们考虑了多个环境类型，称为“领域”，这些领域涵盖了各种动作空间，如机器人控制、基于高级指令的控制方式以及计算机 UI 交互。研究的目标是学习一个通用策略，能够在不同的环境中进行适应和执行任务，每个环境由一组观测、动作、目标和奖励构成。

GEA 架构

通用具身智能体(GEA)通过接收环境提示、任务指令和历史观察及动作，预测并执行适当的动作。该系统依据环境的具体情况(包括任务描述和先前的动作与观察)来生成动作，以便在不同环境中有效地执行任务。

为了让 GEA 适应多种动作形式(离散和连续动作)，我们使用了一个“多具身动作标记器”。具体来说，GEA 的动作分为两类：离散动作和连续动作。离散动作通过自然语言描述，并将其转化为一系列文本标记。而对于连续动作，使用一个学习到的动作标记器，将连续的动作映射为新的标记序列，这些标记序列的词汇表是根据需要生成的。这样，通过对这些动作进行统一标记和编码，GEA 能够处理不同类型的动作并在各种任务中应用。

图 2. GEA 利用预训练的 MLLM 和多具身动作标记器，使通用智能体能够在广泛的领域、具身形式和动作空间中操作。GEA 通过具身提示和指令以及观测视觉（下方）作为输入，获取有关具身形式和期望任务的信息。它生成 LLM 词汇表中的一系列动作标记，这些标记由多具身动作去标记器解码成适用于相应具身形式和动作空间的动作。

训练过程

GEA 从基础的多模态大语言模型(MLLM)开始，首先训练连续动作标记器。图 3 中展示了该过程，MLLM 通过监督微调(SFT)在具身经验数据集上被适配为 GEA-Base。接下来，GEA-Base 通过监督学习和强化学习进一步调整，形成完整的 GEA 模型。

图 3. GEA 训练阶段。首先，通过在交互数据上使用 SFT 微调整个 MLLM，将其适配为 GEA-Base。接下来，GEA-Base 在原始数据上使用 LoRA 联合进行在线强化学习（PPO）和 SFT 微调。

基础 MLLM

在选择基础模型时，除了其视觉-语言能力外，关键考虑因素是其能够处理长上下文的能力，因为具身数据包含了长时间序列的交替观察和动作。我们因此选择了 LLaVA-OneVision 作为基础模型，它专门用于处理图像序列，并通过图文对和视频进行训练，适应 GEA 在长时间观测历史上的表现。

连续多具身动作标记器

为了获得连续动作的词汇表(Vcont)和相应的标记器/解标记器，我们采用了 Szot 等人的方法，并基于动作向量训练了残差 VQ-VAE(RVQ)模型。RVQ 是一个变分自编码器，利用离散嵌入序列来表示数据。具体来说，它将一个动作表示为 M 个标记的序列，每个标记表示从学习词汇表中选出的代码。

与 Szot 等人不同的是，我们训练了一个单一的标记器/解标记器，适用于所有连续动作空间，这些空间包括各种机器人控制类型，如末端执行器、关节速度和关节位置控制。为了训练统一的 RVQ，我们对所有动作向量进行填充，并在推理时根据具体的具身动作空间调整输出维度。

阶段 1：监督指令微调（SFT）

GEA 的第一个阶段是使用监督指令微调(SFT)来调整基础 MLLM 以进行具身决策。我们使用来自所有环境的数据集 D 来训练模型，并在交互数据或视觉-语言数据上应用标准的交叉熵损失函数。训练过程中，我们最大化每个样本的负对数似然。

阶段 2：在线强化学习（RL）

尽管 SFT 训练可以得到一个功能强大的 GEA-Base 智能体，但它只在有限的专家轨迹上进行训练，且很少涉及像错误恢复等多样化行为。因此，我们在第二阶段使用在线 RL 来继续训练 GEA-Base，获得最终的 GEA 模型。在这个阶段，GEA-Base代理在有限的专家轨迹基础上继续进行RL训练，并结合SFT(监督微调)以获得最终的GEA模型。

PPO算法：使用PPO算法进行RL训练，并结合SFT目标优化。为了稳定训练，采用了PopArt归一化技术，确保不同环境之间的奖励分布不会影响训练效果。PPO中的价值函数由MLP网络构成，输入包括MLLM模型的最终层激活和视觉编码器的视觉嵌入。此外，训练过程中通过约束解码确保动作采样在有效动作空间内，并对不同环境的动作分布进行熵归一化。在硬件和训练设置方面，为了减少内存消耗，采用LoRA对LLM进行微调，并使用多个GPU节点并行训练。每个环境的滚动长度为128，训练使用了特定的学习率、熵系数和价值函数学习损失，并在100M步数内完成训练。总的来说，这一阶段通过强化学习进一步提升了GEA模型的泛化能力和任务表现。

训练细节: RL 训练引入了 GPU 内存开销，因此我们使用 LoRA 来微调 LLM，同时冻结其他组件。每个环境使用 128 的回合长度、3e-4 的学习率和 1e-4 的熵系数，并训练 100M 步。

数据集与环境

使用了一套多样化的领域及相关环境和数据集(参见表 1)。本节介绍这些领域，并解释我们如何在训练过程的第 1 阶段和第 2 阶段使用它们。

静态操作：这些数据集包含固定的机器人操控臂与物体的交互。一些数据集是模拟的桌面交互，涉及刚性物体，如 Meta-World、CALVIN 和 Maniskill。还利用了一个包含真实机器人平台交互的大型数据集。这些数据集涵盖了末端执行器控制和关节控制的多种控制空间。摄像头通常固定在一个静态位置，以确保工作空间和机器人臂始终可见。

表 1. 用于训练 GEA 的具身数据集概览。每个数据集中的动作可以是离散的或连续的，对于连续动作有特定的控制空间。具身类型描述了被控制的智能体。数据集中的每条轨迹指的是一系列的图像和动作。数据来源指的是这些轨迹的收集方法。

移动操作：还研究了机器人操控臂通过移动底盘进行的设置。使用 Habitat 平台中的物体重排任务数据集。这些数据集涉及物体拾取和放置任务，机器人起始位置距离物体最多 2 米。机器人需要协调移动其底盘和臂部，以成功拾取物体。这些数据集使用了第一人称自我中心视角的摄像头。

导航：我们还使用了导航数据集。我们使用了 Habitat 中的机器人导航数据集。我们还使用了 BabyAI 中的网格世界环境中的导航数据集。两个数据集均由最短路径专家收集。

视频游戏：我们使用了两个标准基准数据集，分别是 Procgen和 Atari，用于决策制定的任务。这些数据集是通过 RL 智能体分别训练并解决每个游戏收集的。我们通过提供游戏名称以及简短的游戏目标和规则描述，将这些任务转换为语言条件任务。我们仅在成功的轨迹上进行训练。

规划：我们使用了 LangR 数据集中的成功轨迹数据。在此任务中，智能体必须选择技能原语，以完成长期的、语言指定的重排任务，适用于家庭机器人。

UI 控制：我们使用了 AndroidControl数据集，包含了 Android 设备中 833 个应用的 UI 交互数据。这些操作是通过屏幕坐标指定的点击操作和文本输入的组合。

视觉语言指令数据：为了提高模型的泛化能力，我们还包括了用于训练原始 MLLM 的数据，这些数据在先前的工作中发现，在将 MLLM 微调为控制策略时非常有用。我们使用了以下没有任何操作的文本和图像数据集：VQAv2、OKVQA、A-OKVQA、GQA 和 LLaVA-Instruct-150k 数据集。

第 1 阶段训练：SFT 数据：为了获取第 1 阶段训练的具身数据，我们收集了来自上述所有领域的大型语言条件行为数据集，包含 220 万条轨迹。所有轨迹都是语言条件行为与视觉观测的成功示例。数据来自多种收集源，包括人类示范、基于 RL 的策略和运动规划器。数据集内容丰富，涵盖了数千个不同的任务和许多具身形式。

第 2 阶段训练：RL 环境：对于第 2 阶段的在线 RL 训练，使用来自 Habitat Pick、语言重排(LangR)和 Procgen 三个领域的环境。因此，我们定义了 EPPO = {HabPick, LangR, ProcGen}。Habitat Pick 和 LangR 在 Habitat 平台中进行了模拟，并具有奖励函数，用于实现目标和推动进度。在 Procgen 中，我们使用所有 16 款游戏进行 RL，并使用每个游戏特定的奖励函数。

实验评估

通过实证展示了 GEA 作为一个通用智能体的能力，能够在不同的具身形式和领域中推广到新的指令和设置。评估了 RL 训练在实现这一目标中的作用。在消融实验中，我们研究了跨多个领域扩展数据的影响，比较了 RL 与其他形式的策略收集数据的效果，以及基础 MLLM 的影响。

GEA 的泛化能力

本节评估了最终 GEA 模型的泛化能力。我们使用了来自表 1 中数据集的相关基准，这些数据集涵盖了操作、导航、视频游戏、UI 控制和规划任务。这些基准评估了在训练数据中未出现的新设置下智能体的表现，如新的物体位置、场景、视觉背景、任务或指令。所有基准任务都用自然语言指定评估指令，并要求智能体基于视觉观测进行操作。我们报告了 GEA 的“在线”表现，意味着我们在交互式模拟器中评估其表现。唯一的例外是 AndroidControl，在该任务中，我们通过与地面真实轨迹的对应关系进行验证。每个基准任务还评估了智能体在多个不同任务中的表现。例如在 Procgen 视频游戏基准中，我们报告了所有 16 款 Procgen 游戏的平均表现，每款游戏都是完全不同的。我们旨在全面框架化 GEA 相较于先前工作在所评估基准上的实证表现。首先，在所有基准任务中，我们仅使用图像作为观测数据，不使用任何特权信息，如仿真状态或额外的观测信息，如 3D 点云。其次，我们评估了我们单一的 GEA 模型在所有环境中的表现，该模型被称为通用智能体。有些方法是在单一环境的数据上训练的，我们将其称为专家智能体。其他一些对比方法中，训练或测试数据的划分不明确。例如，Gato 是一个类似 GEA 的通用模型，但它在一些较少多样化的任务上进行评估和训练，且其训练数据集并未公开。

表 2. GEA 在新任务上的zero-shot 泛化表现，按成功率百分比以及视频游戏任务中专家表现的百分比进行比较。我们与先前的工作进行比较，包括仅在该基准上使用该领域数据训练的领域专家（带有上标“S”）和使用多个基准数据训练的领域通用模型（带有上标“G”）。粗体表示最佳，带下划线表示接近第二，灰色标记表示该方法假设访问额外的输入模式，如点云或地面真实模拟器状态，这意味着与 GEA 的比较不公平。“Prior Work”列还提供了方法训练方式（IL 或 RL）以及是否假设额外的输入模式。“# Tasks”列大致表示评估设置的数量，带有“*”表示每个任务还有多样的语言指令。

表 2 总结了对比评估。GEA 在操作任务上表现优异，超越或匹敌专家模型的表现。例如，在 Meta-World 中，GEA 的表现远远超过了为此任务训练的专家和通用模型，相较于最优基线提高了 7% 的绝对增幅。在 CALVIN 中，GEA 超越了多种近期的专家模型。GEA 也与专家 3D Diffuser Actor 方法的表现接近，该方法使用了特定于操作的末端执行器关键点动作表示，并利用深度摄像头将场景表示为 3D 特征云。GEA 仅使用第三人称视角的 RGB 摄像头，不使用特定于桌面操作的动作或观测空间。尽管这些基线是通过地面真实的仿真状态训练的，但 GEA 在 Habitat Pick 中表现超过了这些基线，并在 Habitat Place 中与之接近匹配。在 Maniskill 中，困难且常常被遮挡的摄像机视角导致整体成功率较低，但 GEA 在仅使用 IL 的情况下超越了其他结果。然而，在这个基准任务中，使用 RL 的方法优于 GEA。

在视频游戏基准中，GEA 在 Procgen 中超越了专家模型基线。在 Atari 中，GEA 的表现优于通用模型 Gato。然而，在 Atari 中，GEA 不如使用离线 RL 从次优演示中学习的 Multi-Game DT方法。在 Atari 中，GEA 既不使用离线 RL，也不使用在线 RL 进行训练。

在 BabyAI 导航基准中，尽管 GEA 使用 RGB 渲染的自上而下视图，而不是任何底层状态信息，且在该环境中的演示少达 100 倍，但它的表现与 Gato 相似。在 Habitat Nav 中，GEA 的表现不及 RL 训练的专家。这个差距可能是由于 GEA 仅包含前三个观测，限制了其在部分可观察设置中的能力。

在 UI 控制这个离散动作任务中，GEA 超越了使用 UI 检测模型生成的标记集的 GPT-4o。这表明 GEA 在交互决策任务中受益，即使是在面对强大的 LLM 和专用感知系统时。最后，在 LangR 规划任务的离散控制基准中，GEA 的表现接近于只使用 RL 在此任务上训练的专家模型。

表 3. 阶段 2 RL 训练对 GEA-Base（7b 模型）的影响。参加 RL 训练的任务提高了它们的泛化表现。由于继续进行 SFT 训练，其它任务的表现略有提升。

RL 对比 SFT 的比较优势：使用 RL 对于实现这些强大结果至关重要。表 3 比较了仅通过 SFT 在专家示范数据上训练的 GEA-Base 和经过第二阶段 RL 训练的 GEA 的表现。结果表明，GEA 在 Habitat Pick、Procgen 和 LangR 等环境中的成功率大幅提升，这些环境中使用了 RL。此外，在所有其他任务中的平均成功率未受 RL 影响，这是由于 SFT 训练的继续进行。

GEA 训练与模型分析

在本节探讨了 GEA 的通用能力与其训练数据之间的关系。分析了具身 SFT 数据在将 MLLM 适应于交互任务中的作用，以及在线数据的重要性。我们还评估了基础 MLLM 的重要性。对于本节中的所有结果，我们用原始具身 SFT 数据的 32% 和 40k 次更新进行训练，以减轻分析的计算负担。我们还在表 2 中的任务上进行评估，每个基准的评估集大约为 200 次实验。

多领域数据的影响

我们评估了在所有多样化领域的数据上训练通用模型与仅在特定目标领域的数据上训练模型的效果。具体来说，我们在单一领域(“领域特定”)或跨所有领域(“GEA-Base”)的数据上训练了较小的 LLaVA-OneVision-500m 模型。表 4 中的比较显示，在所有基准中，使用全部数据进行训练是有益的。然而，在某些领域，如 Android 控制和 Procgen，增益较小，可能是因为这些领域与其他训练领域的重叠较少，而我们训练时使用了大量的操作数据。

表 4. 我们展示了使用 LLaVA-OneVision-500m 作为 MLLM 基础模型（第 1 行）以及仅使用特定领域数据训练（第 2 行）的结果。我们还展示了同一架构的变换器结果，但仅初始化 LLM 子网（第 3 行），或视觉编码器（第 4 行），或两者都不初始化（第 5 行）。

政策收集数据的影响

接下来探讨了除了 SFT 专家示范数据之外的其他数据源在学习中的作用。虽然 GEA-Base 是一个有效的具身策略，但它仅在成功的示范数据上训练。这些示范数据很少展示恢复行为或对非专家行为的鲁棒性。与典型的 MLLM 应用(如视觉问答)不同，在交互任务中，基于专家数据训练的智能体可能会遭遇“协变量漂移”问题，其中小的智能体错误导致观测分布从专家数据中偏移，进而导致错误的累积。

我们分析了如何通过额外的数据训练 GEA-Base，以提升其在 Habitat Pick 任务中的表现，并比较了以下几种替代方法。首先GEA-Base Success SFT 收集了 10k 个成功示范数据，然后在这些成功数据上进行监督学习。GEA-Base Offline RL 收集了 10k 条包含成功和失败的轨迹，所有轨迹都标记有密集的 Habitat Pick 奖励，然后使用 IQL 离线 RL 算法进行训练。GEA Online RL 使用 PPO 对 GEA-Base 进行微调，利用与仿真器的在线交互(类似于 GEA 的第二阶段训练，但省略了联合 SFT 损失)。我们再次使用较小的基础 LLaVA-OneVision-500m 模型进行这些实验。图 4 展示了这些变化的结果。

图 4. 在 Habitat Pick 中的在线学习。MLLM 方法微调 LLaVA-OV，而其他方法微调 GEA-Base。

主要结论是，在微调的 MLLM 基础上，在线 RL 对 GEA-Base 的影响很大，尽管后者是通过 50k 个成功的 Habitat Pick 示范数据进行训练的。在线 RL 超越了 Success SFT 和 IQL 离线 RL，突显了在线交互的必要性。值得注意的是，在 GEA-Base 上应用 Success SFT 和离线 RL 会导致模型性能下降，这可能是由于缺乏多样化的数据。这些结果进一步表明，在微调的模型上应用在线 RL 是有益的，而单独使用在线 RL 无法将基础 MLLM 的表现提升到 GEA-Base 的水平。

预训练 MLLM 的影响

评估了通过如何预训练 MLLM 对模型表现的影响。我们比较了 GEA 在两个不同版本的 LLaVA-OneVision-500m 训练模型上的表现：第一个版本是在训练数据中没有自监督图像数据的条件下训练的，第二个版本则包括了大量的图像数据。图 5 显示了不同版本之间的比较。预训练的 LLaVA-OneVision-500m 模型在所有基准任务中的表现优于没有图像预训练的版本。这表明，预训练 MLLM 在训练中起着至关重要的作用，有助于提升性能。

图 5. 分析使用不同参数数量的不同基础 MLLM 训练 GEA 的影响。

总结

本研究探讨了如何通过专家轨迹和在线强化学习(RL)对预训练的多模态大语言模型(MLLM)进行微调，从而解锁其作为通用具身智能体(GEA)的能力。为了与多种具身形式进行交互，GEA 使用了学习到的动作标记器。阐明了 RL 微调对 GEA 的重要性，这使得它在多个领域中取得了具有竞争力的表现，涵盖了操作、视频游戏、导航、UI 控制和规划等任务。尽管 GEA 在多种任务中展示了令人印象深刻的能力，但它仍未达到类似于语言和视觉领域中的基础决策模型的水平。GEA 无法zero-shot 控制任意具身体并在任意环境中操作。此外GEA 在一些领域中的表现，如 Maniskill、Atari 和 AndroidControl，仍然远未完美。将 RL 扩展到这些环境可能是一个解决方案。未来的研究可以继续扩展 GEA 到更多任务，以提升其通用能力。

免责声明：本文系网络转载，版权归原作者所有。本文所用图片、文字如涉及作品版权问题，请联系删除！本文内容为原作者观点，并不代表本网站观点。

编辑：张煜洁

关键词： AI 人工智能多模态大模型具身智能体 MLLM