AutoVDC:ビジョン・ランゲージモデルによる自動ビジョンデータクリーニング

arXiv cs.RO / 2026/5/1

💬 オピニオンTools & Practical UsageModels & Research

要点

  • AutoVDCは、ビジョン・ランゲージモデル(VLM)を用いてビジョンデータセット内の誤ったアノテーションを自動検出し、手作業によるデータクリーニング工数を削減することを目指しています。
  • 本研究では、自動運転のオブジェクト検出ベンチマークであるKITTIとnuImagesを用い、意図的にアノテーション誤りを混入させたデータセット変種を作成して、検出性能を評価します。
  • 複数のVLM間での誤り検出率の比較を行い、さらにVLMのファインチューニングがクリーニングのパイプラインに与える影響も検討しています。
  • 実験結果は、高い誤り検出性能とデータクリーニング効果を示しており、大規模な実運用データセットの信頼性と精度を高められる可能性を示唆します。
  • 人手によるラベリングには不完全さがあり、実用品質に到達するまで複数回の高コストな見直しが必要になりがちなという課題に対処することが目的です。

Abstract

自動運転システムの訓練には、堅牢な性能を達成するために、精密なアノテーションを伴う大規模なデータセットが必要です。人手によるアノテーションは不完全さを免れず、高品質なデータセットを作るには複数回の反復がしばしば必要になります。しかし、大規模データセットを手動でレビューすることは、手間がかかり費用も高くつきます。本論文では、自動視覚データクリーニング(AutoVDC: Automated Vision Data Cleaning)フレームワークを提案し、視覚データセットにおける誤ったアノテーションを自動的に特定するために、視覚言語モデル(Vision-Language Models: VLMs)の利用を調査します。これにより、ユーザはこれらの誤りを除去し、データ品質を向上させることが可能になります。我々は、自動運転のための物体検出ベンチマークを含む KITTI および nuImages データセットを用いて提案手法を検証します。AutoVDC の有効性を確かめるために、意図的に誤ったアノテーションを注入したデータセットの派生版を作成し、我々の手法による誤り検出率を観察します。さらに、異なる VLM を用いた場合の検出率を比較し、提案パイプラインに対する VLM のファインチューニングの影響も検討します。結果は、本手法が誤り検出とデータクリーニングの実験において高い性能を示すことを裏付けており、自動運転における大規模な量産データセットの信頼性と精度を大幅に改善できる可能性を示しています。