Abstract
Vision-Language-Action(VLA)モデルは、ロボットによる操作において近年めざましい進歩を遂げてきたものの、故障の診断や失敗からの学習という点では依然として限界があります。さらに、既存の失敗データセットは多くがシミュレーションによってプログラム的に生成されており、現実世界への汎化が制約されています。これらを踏まえ、我々はロボットによる操作の失敗を診断し、テキストとビジュアルの両方による修正ガイダンスを提供するための枠組みViFailbackを提案します。我々の枠組みは、注釈の効率を高めるために明示的なビジュアル記号を用います。さらに、ViFailbackデータセットも公開します。これは、58,126件のVisual Question Answering(VQA)ペアと、それに対応する5,202件の現実世界における操作軌跡からなる大規模コレクションです。データセットに基づき、Vision-Language Models(VLMs)の故障診断および修正能力を評価するための、11のきめ細かなVQAタスクから構成されるベンチマークViFailback-Benchを構築します。評価は、クローズドエンド用のViFailback-Bench Liteと、オープンエンド用のViFailback-Bench Hardを備えています。我々の枠組みの有効性を示すために、ViFailback-8B VLMを構築しました。これはViFailback-Benchでの全体的な性能向上を達成するだけでなく、修正アクションのガイダンスのためのビジュアル記号を生成します。最後に、ViFailback-8BをVLAモデルに統合し、現実世界でのロボット実験を行うことで、VLAモデルが失敗から回復するのを支援できることを実証します。プロジェクトWebサイト: https://x1nyuzhou.github.io/vifailback.github.io/