最火VLA,看这一篇综述就够了
来源:36kr 9 小时前

ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了!

如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

文章作者Moritz Reuss是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线研究者的实战总结,也是洞察趋势的前沿观察。

文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。

这个VLA,究竟有多火?

据统计,VLA模型相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。

这股热潮背后,让机器人“听懂人话、看懂世界、动手干活”,正成为AI领域极具吸引力的前沿阵地。

然而,在这片繁荣之下,一个问题也随之浮现:当我们谈论VLA的进步时,我们到底在谈论什么?

明确VLA的概念

在深入探讨技术趋势前,我们必须先明确一个基本概念:什么样的模型,才有资格被称为VLA?

学术界对此尚无统一定义,但研究员Moritz Reuss在他的综述中提出了一个标准:

一个模型必须使用经过大规模、互联网级别的视觉-语言数据预训练过的骨干(pre-trained backbone),才能被称为VLA。

这一定义强调模型能力的来源:VLA必须具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力

代表模型如Google的PaLI-X,或开源项目Llava、Florence-2等。

而如果一个模型只是简单地将独立的视觉编码器和文本编码器拼在一起,那它更应该被称为“多模态策略”(Multimodal Policies)

与之相关,还有一个概念值得一提:大型行为模型(Large Behavior Models, LBMs)。这是丰田研究院提出的术语,指在“大规模、多任务的机器人演示数据”上训练出的策略。

可以这样理解:

VLA强调的是“基因”,即必须继承自一个强大的VLM(视觉语言模型)

LBM强调的是“养料”,即必须用海量的机器人操作数据进行训练

一个在大量机器人数据上微调的VLA,同时也是一个LBM。

但一个LBM,不一定是一个VLA。搞清楚这个边界,才有助于我们理解不同技术路线的侧重。

透过ICLR 2026看VLA八大趋势

趋势一:VLA的高效架构新范式

如果说今年VLA架构有什么新风向,当属离散扩散模型(Discrete Diffusion)

传统的自回归模型一个字一个字写,必须生成完上一个动作单元,才能生成下一个。

而离散扩散模型则可以并行化地一次性生成整个动作序列。这带来了几个好处:

  1. 高效生成:减少前向传播次数,提高推理效率
  2. 思维动作融合:可并行生成动作与推理过程(如子目标、关键物体位置),即具身思维链(Embodied Chain-of-Thought, ECoT)

关于这个趋势,本次ICLR上涌现了《DISCRETE DIFFUSION VLA》《dVLA》等多篇论文,在LIBERO评测中取得了近乎饱和的表现。

趋势二:具身思维链(ECoT)让机器人先想后做

让机器人更聪明,光靠模仿是不够的,它还得学会“思考”。具身思维链(Embodied Chain-of-Thought, ECoT)正是这一思路的集中体现。

其核心思想是:在生成动作前,先生成一系列中间推理步骤,使机器人具备更强的计划与解释能力。

这些步骤可以是:

  • 文本规划:“我需要先找到红色杯子”
  • 视觉感知:定位关键目标
  • 轨迹构图:设计移动路径

这种先想后做的模式不仅更具可解释性,也显著提升复杂场景中的泛化能力。

但ECoT对高质量标注数据依赖较大,而这类数据仍较稀缺。

本次ICLR中,如《ACTIONS AS LANGUAGE》《EMBODIED-R1》等论文,通过推理-动作解耦和多阶段训练流程,在SIMPLER等评测中表现突出。

趋势三:动作分词器(Action Tokenizer)让动作可语言化

VLA的一个核心难点是:如何将连续、高频的机器人动作转换为VLM能理解的离散“词汇”(Token)?

这正是动作分词器(Action Tokenizer)的作用所在。它是连接VLM“大脑”与机器人“身体”的桥梁。

今年的新进展包括:

  • FASTer Tokenizer:结合残差矢量量化(RVQ),在压缩率与动作连续性间取得平衡
  • OmniSAT:借助B样条曲线(B-Splines)对动作建模,实现更紧凑表达

在LIBERO和SIMPLER中,这些方法提升了精度与稳定性,为语言模型驱动的机器人控制奠定基础。

趋势四:强化学习(RL)打通最后一公里

模仿学习虽可快速习得基础操作,但极端场景下表现仍有限。因此,强化学习(RL)重新登场,作为VLA策略的微调利器

今年的代表技术包括:

  • 残差RL(Residual RL):在冻结VLA策略上叠加一个轻量“残差策略”,实现关键时刻干预与优化
  • 阶段感知RL(Stage-aware RL):将复杂任务拆分成语义阶段,进行分阶段奖励与策略训练

代表作如《SELF-IMPROVING… VIA RESIDUAL RL》《PROGRESSIVE STAGE-AWARE…》在LIBERO和SIMPLER上分别取得了99%和98%的成功率。

趋势五:效率优化(Efficiency)让VLA走向平民化

VLA模型庞大、成本高昂,令许多中小实验室望而却步。因此效率优化成为研究重点。

典型代表有这两大方向:

  • 推理效率:如HyperVLA采用超网络机制,动态生成轻量策略网络
  • 显存占用:如AutoQVLA采用智能量化,压缩模型体积同时保持性能

这些方法大幅降低了硬件门槛,让更多研究者能够参与VLA研究。

趋势六:视频预测赋予VLA物理直觉

视频生成模型天然理解时序动态和物理规律,这对于机器人控制是极强的先验知识。

这个方向主要有两种思路:

  1. 在VLM基础上增加未来帧预测任务
  2. 从视频生成大模型(如NVIDIA的Cosmos)出发,微调使其具备动作生成能力

例如《COSMOS POLICY》就成功将一个视频基础模型微调用于机器人控制,并在真实世界中与Pi-0.5等前沿模型进行了对比。

这些工作表明,赋予VLA“想象”未来的能力,能有效提升其对物理世界的理解。

趋势七:更真实的评测基准

正如后文会提到的,现有评测集已近饱和。为此,社区正在积极开发新的评测方式。

  • 《ROBOTARENA ∞》 提出了一个真实到仿真 (Real-to-Sim) 的评测框架,可以自动构建和评估环境
  • 《RoboCasa365》 提供了一个包含365种任务、超2000个厨房场景的大规模仿真环境
  • 《WorldGym》 甚至提出一个颠覆性的想法:直接用一个生成式的世界模型作为评测环境

这些新基准致力于打破对现有测试集的过拟合,推动VLA研究走向更有意义的泛化能力。

趋势八:跨体态学习是必经之路

如何让一个模型同时驱动不同结构(Action Space)的机器人?这是通往通用机器人的核心挑战。

  • 《X-VLA》 使用软提示(soft-prompting)为不同机器人学习特定的“适配器”
  • 《XR-1》 提出统一视觉-运动编码(UVMC),用一套共享的“词典”来表示不同机器人的视觉动态和动作
  • 《HIMOE-VLA》 则使用了层级式混合专家(Hierarchical MoE)架构,让模型能更好地适应新“身体”

这些架构上的创新,是构建能够适应不同硬件的通用机器人策略的关键一步。

现状问题:不要迷信高分,评测正在失真

研究员Reuss在文中指出:主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”问题。

很多模型得分虽高,却难以转化为现实能力,原因如下:

  • 数据鸿沟:头部公司掌握海量高质量真实数据,是开源数据难以比拟的
  • 评测维度差异:工业界更看重开放环境、泛化能力、失败恢复
  • 资源与迭代:大规模集群与工程支持带来快速优化能力

开源模型在仿真环境中得分甚至高于Google的Pi-0.5,但在真实世界中,仍难匹敌这些前沿产品。

未来两大关键问题:仍被忽视的数据与学习方式

文章的最后,Reuss还指出两个VLA研究中尚未受到足够重视的问题

数据质量:与其关注数据量,不如关注数据中的噪声、歧义、次优行为,这些都可能限制模型上限

上下文学习(In-context Learning):这一在LLM中常见的机制,能否迁移到机器人领域,或许是通用VLA的突破口

作者介绍

这篇综述的作者Moritz Reuss,是德国卡尔斯鲁厄理工学院(KIT)的四年级博士生,长期致力于从人类演示、视觉与语言中构建通用机器人AI系统。

他也是将扩散模型引入机器人策略研究的先行者,而这恰好是本次综述中提到的热门趋势之一。

作为2025年Apple AI/ML学者奖获得者,他的研究成果已多次发表于RSS、ICLR、NeurIPS等顶会。可以说,这份综述来自科研一线的“圈内人”。

最后,VLA的这么多技术方向,你最看好哪一个?是更快的离散扩散,还是更聪明的思维链?或者你认为数据才是唯一的密码?

参考链接:

[1]https://mbreuss.github.io/blog_post_iclr_26_vla.html

[2]https://www.linkedin.com/in/moritzreuss/

简体中文 English