My Research Blog

Blog Research Daily Projects About

Back

Paper Reading: Embodied AI 2

Blur image

2026年3月3日

1 min read

paper reading /

Paper Reading: Embodied AI 2

从零开始的 Embodied AI 研究生活。

views | comments

评分准则

★ ☆ ☆ ☆ ☆ 平平无奇的论文
★ ★ ☆ ☆ ☆ 正常的论文
★ ★ ★ ☆ ☆ 广受认可或让我眼前一亮的论文
★ ★ ★ ★ ☆ 奠基性或我非常喜欢的论文
★ ★ ★ ★ ★ 毋庸置疑的最棒论文

OpenVLA#

OpenVLA: An Open-Source Vision-Language-Action Model

arXiv 2406.09246 ※ 精读

开源可复现的 VLA 基线，适合搭建你自己的实验流水线。

方法：基于视觉-语言 backbone，动作以 token 形式自回归生成。
为什么值得看：工程栈公开、复现实验门槛低，便于做对比实验。
我的结论：适合作为个人课题中的“第一版可运行基线”。

π0 (Pi-Zero)#

π0: A Vision-Language-Action Flow Model for General Robot Control

※ 速读

将动作建模为 flow matching 形式，兼顾多任务能力和执行质量。

关键点：不是纯 next-token 预测，而是通过 flow 轨迹学习动作分布。
优势：在复杂控制任务上更稳，跨任务泛化潜力更高。
个人评分理由：论文完整度高，方法与实验都具备迁移价值。

GR-2#

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge

把视频生成能力引入机器人决策，强化了对长期时序的建模能力。

方法：将视频理解/生成先验与动作策略统一训练。
优点：对“下一步会发生什么”建模更自然。
局限：训练资源开销较大，小团队复现成本高。

小结#

这一批里最推荐先复现 OpenVLA，再做 π0 的局部思想迁移。
如果你的目标是快速形成正反馈：每读完一篇，至少补齐 评分 + 三条结论。

Paper Reading: Embodied AI 2

https://agus76677.github.io/blog/paper-reading-eba2

Author Agus76677

Published at 2026年3月3日

Copyright CC BY-NC-SA 4.0

Buy me a cup of coffee ☕.

Daily Log: 2026-03-04

Daily Log: 2026-03-03