要旨: 視覚-言語-行動(VLA)モデルは、自然言語の指示と視覚観測を制御アクションへ変換することで、ロボットの操作(マニピュレーション)を最近大きく前進させてきました。 しかし、既存のVLAは主として成功した熟練者のデモンストレーションに基づいて学習されており、失敗の診断と回復のための構造化された監督が欠けているため、オープンワールド環境での頑健性が制限されています。この制約に対処するため、我々はRobotic Failure Analysis and Correction(RoboFAC)フレームワークを提案します。 我々は、大規模な失敗中心のデータセットを構築します。これには、シミュレーション環境と実環境の両方において、53のシーンにまたがる9,440本の誤った操作軌跡と、78,623個のQAペアが含まれ、失敗タイプは体系的に分類されています。 このデータセットを活用し、タスク理解、失敗分析、失敗補正に特化した軽量なマルチモーダルモデルを開発します。これにより、大規模な専有モデルに対して競争力を維持しつつ、効率的なローカル展開を可能にします。 実験結果は、RoboFACがGPT-4oに比べて失敗分析の精度を34.1%高く達成することを示しています。 さらに、RoboFACを実世界のVLA制御パイプラインに外部スーパーバイザとして統合したところ、4つのタスクすべてで29.1%の相対的改善が得られました。また、GPT-4oに比べて待ち時間を大幅に削減しました。 これらの結果は、RoboFACが体系的な失敗の診断と回復を可能にし、VLAの回復能力を大きく向上させることを示しています。 我々のモデルとデータセットは https://github.com/MINT-SJTU/RoboFAC で公開されています。
RoboFAC:ロボットの故障分析と補正のための包括的フレームワーク
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この記事では、成功デモのみに頼るのではなく、失敗の診断と回復のための構造化された教師信号を追加することで、Vision-Language-Action(VLA)ロボットによる操作を改善することを目的としたフレームワーク「RoboFAC」を紹介する。
- シミュレーションと実世界の両方において、53のシーンで9,440本の誤った軌道と78,623組のQAペアから成る、失敗に焦点を当てたデータセットを構築し、失敗タイプを体系的に分類する。
- RoboFACは、タスク理解、失敗分析、失敗補正のために用いる軽量なマルチモーダルモデルを採用しており、ローカルで動作しながら、大規模なプロプライエタリモデルと競争力を維持するよう設計されている。
- 実験結果では、RoboFACはGPT-4oに対して失敗分析の精度を34.1%向上させる。さらに、実世界のVLAパイプラインに外部スーパーバイザとして組み込むと、4つのタスクにおいて相対性能を29.1%改善し、かつGPT-4oよりも低いレイテンシを実現する。
- 著者らは、モデルとデータセットの両方をGitHubで公開しており、他の研究者がより頑健なオープンワールド型ロボットの回復のためにこのフレームワークを導入できるようにしている。