見て、ズームして、理解する:身体化された知覚のためのロボットアイボール

arXiv cs.RO / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、身体化されたAIには能動的な視覚知覚が必要であり、ロボットがセンサ制約の範囲内でタスクに関連する情報量を最大化するように、どこを見てどのズーム倍率で見るかを能動的に選択するべきだと主張している。
  • 1枚のRGB画像と指示文が与えられたとき、エージェントはタスクにとって最も有益な視点を捉えるためにPTZ(pan/tilt/zoom:パン/チルト/ズーム)のカメラ調整量を予測する、言語誘導型の能動的知覚タスクを提案する。
  • 著者らは、視覚知覚、言語理解、そして物理的なカメラ制御を単一モデルに統合する、自己回帰型の視覚言語行動(vision-language-action)フレームワークEyeVLAを提案する。
  • EyeVLAは、階層的な行動エンコーディングによって連続的なカメラ移動を離散化/コンパクトにトークン化し、それをVLMのトークン空間へ写像する。これにより、知覚と行動の双方にまたがる共同のマルチモーダル推論が可能になる。
  • 擬似ラベリング、IoU制御による反復的なデータ精製、さらにGRPOを用いた強化学習により、この手法は事前学習済みのVLMから、実世界のサンプル500件のみで転移し、50シーンにわたる平均タスク完了率96%を報告している。

要旨: 身体化されたAI(embodied AI)において、視覚認識は受動的であるべきではなく能動的であるべきである。すなわち、ピクセルおよび空間の予算制約の下で、最大限に有益なデータを獲得するために、システムはどこを見るべきか、またどのスケールで感じ取るべきかを決定しなければならない。固定されたRGB-Dカメラと結合した既存の視覚モデルは、広域のカバレッジと微細な詳細の取得とを根本的に両立できず、その結果、オープンワールドのロボティクス応用における有効性が大きく制限されている。我々は、言語に導かれた能動的な視覚認識という課題を研究する。単一のRGB画像と自然言語による指示が与えられたとき、エージェントは、指定されたタスクに対して最も情報量の多い視点を獲得するために、実機PTZ(パン・チルト・ズーム)カメラのパン、チルト、ズームの調整量を出力しなければならない。我々は、視覚認識、言語理解、物理カメラ制御を単一の自己回帰型の視覚言語行動モデルの中に統合することで、この課題に取り組む統一的フレームワークEyeVLAを提案する。EyeVLAは、連続的なカメラ調整をコンパクトにトークナイズし、多モーダル推論のためにVLM語彙へ埋め込む、意味的に豊かで効率的な階層型アクション符号化を導入する。疑似ラベル生成、IoU制御による反復的なデータ精製、Group Relative Policy Optimization(GRPO)による強化学習を含むデータ効率の高いパイプラインを通じて、事前学習済みVLMのオープンワールド理解を、わずか500個の実世界サンプルのみで身体化された能動的知覚ポリシーへと転移する。独立した5回の評価実行における、50種類の多様な実世界シーンでの評価により、EyeVLAが平均タスク完了率96%を達成することを示す。我々の研究は、多モーダル身体化システムにおける、指示駆動の能動的な視覚情報獲得のための新たなパラダイムを確立する。