ラベルなしのインターネット規模データを持ち上げて3Dシーン理解を行う

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高品質な注釈付き3Dデータは入手が乏しく高価であるため、豊富なラベルなしインターネット動画を活用することで3Dシーン理解を向上できると主張している。
ウェブでキュレーションされたラベルなし動画から自動的に学習データを生成し、その後、人手で注釈されたデータセットと並行してエンドツーエンドの3Dシーン理解モデルを学習するための「慎重に設計されたデータ・エンジン」を提案している。
著者らは、自動データ生成における主要なボトルネックを分析し、ラベルなしソースからどれだけ効率的かつ効果的にモデルが学習できるかを左右する要因を特定している。
3D物体検出／インスタンスセグメンテーションから、3D空間VQAや視覚言語ナビゲーションといったより高次のタスクまで、複数の知覚の粒度にまたがる実験により、このアプローチを検証している。
生成データで学習したモデルは、強力なゼロショット性能を達成し、さらに微調整によって性能が向上し得ると報告されており、シーン理解システムをより高能力にするためにウェブデータを活用できる可能性が支持されている。

概要: 注釈付きの3Dシーンデータは希少で、取得コストも高い一方で、ラベルなしの動画はインターネット上に豊富に存在します。本論文では、注意深く設計されたデータエンジンによって、ウェブでキュレーションされたラベルなし動画を活用し、自動的に学習データを生成して、人手による注釈付きデータセットに並行して3Dシーン理解のためのエンドツーエンドモデルを促進できることを示します。さらに、自動データ生成におけるボトルネックを特定・分析し、ラベルなしデータから学習する際の効率と有効性を左右する重要な要因を明らかにします。知覚の粒度が異なる状況でも本手法を検証するために、低レベル知覚、すなわち3D物体検出とインスタンスセグメンテーションから、高次の推論、すなわち3D空間のビジュアル質問応答（VQA）およびビジョン-ランゲージ・ナビゲーション（VLN）までを対象とした3つのタスクで評価を行います。生成したデータで学習したモデルは強力なゼロショット性能を示し、ファインチューニング後にはさらに改善することも確認できました。これは、入手容易なウェブデータを、より能力の高いシーン理解システムへ至る道として活用することの実現可能性を示しています。