視覚シンボルを通じて操作失敗を診断・修正し、その失敗から学ぶ

要点

本論文は、ロボティクスの操作（マニピュレーション）失敗を診断し、視覚と言語を統合した行動（Vision-Language-Action）システムに対して、テキストと視覚の両方による修正ガイダンスを生成するための枠組みViFailbackを提案する。

Abstract

Vision-Language-Action（VLA）モデルは、ロボットによる操作において近年めざましい進歩を遂げてきたものの、故障の診断や失敗からの学習という点では依然として限界があります。さらに、既存の失敗データセットは多くがシミュレーションによってプログラム的に生成されており、現実世界への汎化が制約されています。これらを踏まえ、我々はロボットによる操作の失敗を診断し、テキストとビジュアルの両方による修正ガイダンスを提供するための枠組みViFailbackを提案します。我々の枠組みは、注釈の効率を高めるために明示的なビジュアル記号を用います。さらに、ViFailbackデータセットも公開します。これは、58,126件のVisual Question Answering（VQA）ペアと、それに対応する5,202件の現実世界における操作軌跡からなる大規模コレクションです。データセットに基づき、Vision-Language Models（VLMs）の故障診断および修正能力を評価するための、11のきめ細かなVQAタスクから構成されるベンチマークViFailback-Benchを構築します。評価は、クローズドエンド用のViFailback-Bench Liteと、オープンエンド用のViFailback-Bench Hardを備えています。我々の枠組みの有効性を示すために、ViFailback-8B VLMを構築しました。これはViFailback-Benchでの全体的な性能向上を達成するだけでなく、修正アクションのガイダンスのためのビジュアル記号を生成します。最後に、ViFailback-8BをVLAモデルに統合し、現実世界でのロボット実験を行うことで、VLAモデルが失敗から回復するのを支援できることを実証します。プロジェクトWebサイト: https://x1nyuzhou.github.io/vifailback.github.io/

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/27Dailyインサイトを見る →

視覚シンボルを通じて操作失敗を診断・修正し、その失敗から学ぶ

要点

Abstract

💡 この記事が使われたインサイト

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer