🤖
VLA Research
Vision-Language-Action Models & Embodied AI
4
核心架构
15+
开源数据集
8
SOTA 模型
双周
更新频率
VLA 核心组件
VLA 模型将视觉感知、自然语言理解与机器人动作执行统一在单个端到端神经网络中,是实现具身智能的关键。
代表性工作
RT-2 (Google DeepMind)
OpenVLA (Stanford/Berkeley)
Octo (Berkeley)
PaLM-E (Google)
研究挑战
数据多样性与 Sim-to-Real
高频动作控制的延迟问题
长程规划与泛化能力
多模态对齐的粒度