Embodied-R1: 一般的なロボット操作のための強化された身体化推論

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文は、身体化AIにおける「見ることから行うことへのギャップ（seeing-to-doing gap）」に対処するため、視覚と言語の理解からロボットの行動プリミティブへと接続する共有の中間表現として「ポインティング（指差し）」を導入し、それを身体に依存しない（embodiment-agnostic）形で扱います。
身体化推論とポインティングのために特化して学習した、3Bの視覚言語モデル「Embodied-R1」を提示するとともに、新しい大規模データセット「Embodied-Points-200K」を構築します。これは、複数の身体化および汎用の視覚推論ソースから作られています。
トレーニングは、強化学習による2段階の強化ファインチューニングのカリキュラムと、身体化したポインティング行動を改善するための専用のマルチタスク報酬設計によって行われます。
Embodied-R1は、11の身体化空間・ポインティングベンチマークで先端（SOTA）の結果を達成し、タスク固有のファインチューニングなしで強力なゼロショット汎化も示します（SIMPLEREnvで成功率56.2%、実世界の8つのXArmタスク全体で87.5%）。
さらに、モデルは多様な視覚的擾乱下でも頑健性を維持しており、ポインティング中心の表現と強化ファインチューニングのアプローチが、ロボティクスにおける知覚から行動への汎化に有効であることを示唆しています。