視覚言語モデルのベンチマーク評価と機構的解析：異なる描写間での組立指示アライメント

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2Dの組立指示とビデオ／カメラの描写の間での視覚言語モデルのアライメントを評価するための、29のIKEA製品にまたがる6種類のタスクと1,623問からなるベンチマーク「IKEA-Bench」を導入する。
19のVLM（2B〜38B）を用いた実験では、テキストから組立指示理解を回復することが、図からビデオへのアライメントを損なう可能性があることが示され、テキスト駆動の推論と異なる描写間での視覚的グラウンディングの間にトレードオフが存在することが示唆される。
アライメント精度は、パラメータ数そのものよりもモデルのアーキテクチャ系統がより確実に予測することが分かり、スケーリング単独よりも構造設計の選択が重要であることを示している。
機構的解析により、図とビデオ表現は主として互いに重ならないViTのサブスペース上に位置しており、テキストを追加すると視覚対応の改善ではなく、テキストを介した推論へと注意が移ることが明らかになる。
ビデオ理解が、アライメント戦略にかかわらず依然として最大のボトルネックであると特定されており、異なる描写間の頑健性を高めるための視覚符号化の改善が主要な研究対象であることが示される。

要旨: 2Dの組み立て図はしばしば抽象的でわかりにくく、進捗を監視し、エラーを検出し、手順ごとのガイダンスを提供できるインテリジェントなアシスタントが必要とされる。複合現実（MR）の環境では、こうしたシステムはカメラ映像から完了中の手順と進行中の手順を認識し、それらを図の指示と整合させる必要がある。視覚言語モデル（VLM）はこの課題に有望だが、組み立て図と動画フレームは共有する視覚的特徴がほとんどないため「描写ギャップ」に直面する。このギャップを体系的に評価するため、我々はIKEA家具製品29点にまたがる6種類のタスクタイプに対して、1,623問からなるベンチマークIKEA-Benchを構築し、3つの整合（アラインメント）戦略のもとで19のVLM（2B-38B）を評価する。主な発見は次のとおりである。(1) 組み立て手順の理解はテキストによって回復可能だが、同時にテキストが図から動画への整合を劣化させる。(2) アーキテクチャのファミリは、パラメータ数よりも整合精度をより強く予測する。(3) 動画理解は、戦略の影響を受けずに難しいボトルネックのままである。さらに、3段階の機構論的分析により、図と動画は互いに交わらないViTのサブ空間を占めており、テキストを追加するとモデルが視覚からテキスト駆動の推論へとシフトすることが明らかになった。これらの結果は、描写の違いに対する頑健性を改善するための主要なターゲットが視覚エンコーディングであることを示している。プロジェクトページ: https://ryenhails.github.io/IKEA-Bench/