Vision-Language ロボティックマニピュレーションにおける環境横断の失敗推論データのスケーリング

arXiv cs.RO / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、成功軌道に摂動を加えて現実的な失敗分布に合わせることで、シミュレーションおよび実環境にまたがる多様なロボットマニピュレーションの失敗事例を自動的にスケールするための枠組みを提案する。
さらに、FailCoT と呼ばれる大規模な失敗推論データセットを導入する。これは、視覚言語モデルを用いて、RLBench と BridgeDataV2 から構築した手順ごとの推論トレースを構造化して生成することで作られる。
FailCoT を用いて、著者らは Guardian を学習する。Guardian は複数視点の推論 VLM であり、堅牢な失敗検知とリカバリのために計画と実行検証を統合することを目的としている。
Guardian は、3つの未見の実環境ベンチマーク（RoboFail、RoboVQA、新たに導入した UR5-Fail）で最先端の結果を達成する。
LLM ベースのマニピュレーション方策と組み合わせると、Guardian はシミュレーションおよび実環境の両方の導入においてタスク成功率を確実に向上させ、汎化における高品質な失敗推論データの重要性を示している。