My Research Blog

Back

Paper Reading: Embodied AI 1Blur image

评分准则

  • 平平无奇的论文
  • 正常的论文
  • 广受认可或让我眼前一亮的论文
  • 奠基性或我非常喜欢的论文
  • 毋庸置疑的最棒论文

RT-1#

RT-1: Robotics Transformer for Real-World Control at Scale

把视觉语言条件下的动作预测统一到 Transformer 框架,是后续 VLA 的早期里程碑。
  • 核心方法:图像+文本编码后做 token 融合,输出离散动作 token。

RT-1 related architecture figure

图中展示了该类方案的硬件架构思路。通过增加流水深度,可以减少 MUX 电路规模,从而降低资源开销。

  • 价值:证明“大数据 + 统一架构”在机器人控制上可行。
  • 局限:泛化边界与高层规划能力有限,依赖任务分布。
推荐指数: ★★★☆☆

RT-2#

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

把 VLM 的语义能力迁移到机器人动作生成,显著提高了指令泛化能力。
  • 核心方法:把动作表示成语言 token,与 VLM 的 token 空间统一建模。
  • 价值:桥接了网络规模语义知识与实体执行。
  • 局限:对执行稳定性和长时序任务仍有挑战。
推荐指数: ★★★★
Paper Reading: Embodied AI 1
https://agus76677.github.io/blog/paper-reading-eba1
Author Agus76677
Published at 2026年3月1日