My Research Blog

Back

Paper Reading: Embodied AI 2Blur image

评分准则

  • 平平无奇的论文
  • 正常的论文
  • 广受认可或让我眼前一亮的论文
  • 奠基性或我非常喜欢的论文
  • 毋庸置疑的最棒论文

OpenVLA#

OpenVLA: An Open-Source Vision-Language-Action Model

arXiv 2406.09246 精读
开源可复现的 VLA 基线,适合搭建你自己的实验流水线。
  • 方法:基于视觉-语言 backbone,动作以 token 形式自回归生成。
  • 为什么值得看:工程栈公开、复现实验门槛低,便于做对比实验。
  • 我的结论:适合作为个人课题中的“第一版可运行基线”。
推荐指数: ★★★★

π0 (Pi-Zero)#

π0: A Vision-Language-Action Flow Model for General Robot Control

速读
将动作建模为 flow matching 形式,兼顾多任务能力和执行质量。
  • 关键点:不是纯 next-token 预测,而是通过 flow 轨迹学习动作分布。
  • 优势:在复杂控制任务上更稳,跨任务泛化潜力更高。
  • 个人评分理由:论文完整度高,方法与实验都具备迁移价值。
推荐指数: ★★★★★

GR-2#

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge

把视频生成能力引入机器人决策,强化了对长期时序的建模能力。
  • 方法:将视频理解/生成先验与动作策略统一训练。
  • 优点:对“下一步会发生什么”建模更自然。
  • 局限:训练资源开销较大,小团队复现成本高。
推荐指数: ★★★★

小结#

  • 这一批里最推荐先复现 OpenVLA,再做 π0 的局部思想迁移。
  • 如果你的目标是快速形成正反馈:每读完一篇,至少补齐 评分 + 三条结论
Paper Reading: Embodied AI 2
https://agus76677.github.io/blog/paper-reading-eba2
Author Agus76677
Published at 2026年3月3日