テキストと画像で考える:ロボットの長期マニピュレーションのための視覚・言語推論トレースをインタリーブする

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、ロボットの長期マニピュレーションに向けて、タスク全体の時間軸に沿ってテキストのサブゴールと視覚キーフレームを交互に扱う Interleaved Vision--Language Reasoning(IVLR)を提案する。
  • 推論時には、単一のマルチモーダル・トランスフォーマが初期観測と指示から明示的な推論トレース(グローバルな意味・幾何の流れ)を自己生成してキャッシュし、それを用いてクローズドループの行動デコーダを現在の観測と指示とともに条件付けする。
  • 既存データセットにトレースの注釈がないことを踏まえ、デモンストレーションを時間的にセグメント化し、各段階をビジョン・ランゲージモデルでキャプションすることで擬似教師(pseudo-supervision)を作成する。
  • 実験では長期ベンチマークで高い性能が示され、LIBEROで平均95.5%成功、LIBERO-Longで92.4%、SimplerEnv-WidowXで全体59.4%の成功を達成し、アブレーションによりテキストと視覚の両方のトレースが不可欠であることが確認される。
  • ストレステストでは、実行の摂動やトレース内容のマスクに対して中程度の劣化にとどまる一方で、古くなったり誤ったグローバル計画に対しては耐性が限定的であることが示唆される。

要旨: 長期的なロボット操作には、論理的に一貫しており幾何学的な根拠を備えた計画が必要です。既存のビジョン—言語—行動ポリシーは通常、計画を潜在状態に隠すか、あるいは1つのモダリティだけを提示します。テキストのみのチェーン・オブ・ソートは因果の順序を符号化しますが空間制約を見落としがちです。一方、視覚予測は幾何学的手がかりを与えますが、多くの場合局所的であり、かつ意味的に過度に制約されないままになりやすいです。そこで本研究では、タスク全体のホライズンにわたって、テキストによる部分目標と視覚のキー・フレームを交互に切り替える明示的な中間表現である\trace{}を中心に構築したポリシー枠組み、Interleaved Vision--Language Reasoning(IVLR)を提案します。テスト時には、単一のネイティブなマルチモーダル・トランスフォーマーが、初期観測と指示からこのグローバルな意味—幾何学トレースを自己生成し、それをキャッシュし、そのトレース、元の指示、現在の観測に条件付けて閉ループの行動デコーダを動作させます。標準的なロボットデータセットにはこのようなトレースが存在しないため、デモンストレーションを時間的にセグメント化し、各段階をビジョン—言語モデルでキャプション付けすることで擬似的な教師信号を構築します。長期操作および視覚分布シフトを対象としたシミュレーションベンチマークにおいて、\method{}はLIBEROで平均成功率95.5\%を達成し、LIBERO-Longで92.4\%を含みます。また、SimperEnv-WidowXでは全体成功率が59.4\%です。アブレーションにより、両方のモダリティが必要であることが示されます。トレースがない場合、LIBERO-Longの成功率は37.7\%まで低下します。テキストのみおよび視覚のみのトレースではそれぞれ62.0\%と68.4\%にとどまる一方で、完全なインタリーブトレースでは92.4\%に到達します。実行の摂動やマスクされたトレース内容を用いたストレステストでは、中程度の劣化が見られ、トレースが局所的な破損や中程度の実行ドリフトに耐えられることを示唆しますが、古くなった、あるいは誤ったグローバル計画のもとでは依然として限定的です。

テキストと画像で考える:ロボットの長期マニピュレーションのための視覚・言語推論トレースをインタリーブする | AI Navigate