🤖

VLA Research

Vision-Language-Action Models & Embodied AI

4
核心架构
15+
开源数据集
8
SOTA 模型
双周
更新频率

VLA 核心组件

VLA 模型将视觉感知、自然语言理解与机器人动作执行统一在单个端到端神经网络中,是实现具身智能的关键。

代表性工作

RT-2 (Google DeepMind)
OpenVLA (Stanford/Berkeley)
Octo (Berkeley)
PaLM-E (Google)

研究挑战

数据多样性与 Sim-to-Real
高频动作控制的延迟问题
长程规划与泛化能力
多模态对齐的粒度