🤖

VLA Research

Vision-Language-Action Models & Embodied AI

4

核心架构

15+

开源数据集

8

SOTA 模型

双周

更新频率

VLA 核心组件

VLA 模型将视觉感知、自然语言理解与机器人动作执行统一在单个端到端神经网络中，是实现具身智能的关键。

代表性工作

RT-2 (Google DeepMind)

OpenVLA (Stanford/Berkeley)

Octo (Berkeley)

PaLM-E (Google)

研究挑战

数据多样性与 Sim-to-Real

高频动作控制的延迟问题

长程规划与泛化能力

多模态对齐的粒度