Paper Reading: Embodied AI 2
从零开始的 Embodied AI 研究生活。
views
| comments
OpenVLA#
OpenVLA: An Open-Source Vision-Language-Action Model
开源可复现的 VLA 基线,适合搭建你自己的实验流水线。
- 方法:基于视觉-语言 backbone,动作以 token 形式自回归生成。
- 为什么值得看:工程栈公开、复现实验门槛低,便于做对比实验。
- 我的结论:适合作为个人课题中的“第一版可运行基线”。
π0 (Pi-Zero)#
π0: A Vision-Language-Action Flow Model for General Robot Control
将动作建模为 flow matching 形式,兼顾多任务能力和执行质量。
- 关键点:不是纯 next-token 预测,而是通过 flow 轨迹学习动作分布。
- 优势:在复杂控制任务上更稳,跨任务泛化潜力更高。
- 个人评分理由:论文完整度高,方法与实验都具备迁移价值。
GR-2#
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge
把视频生成能力引入机器人决策,强化了对长期时序的建模能力。
- 方法:将视频理解/生成先验与动作策略统一训练。
- 优点:对“下一步会发生什么”建模更自然。
- 局限:训练资源开销较大,小团队复现成本高。
小结#
- 这一批里最推荐先复现
OpenVLA,再做π0的局部思想迁移。 - 如果你的目标是快速形成正反馈:每读完一篇,至少补齐
评分 + 三条结论。