AI Navigate

VIEW2SPACE: 疎な観測からの多視点視覚推論の研究

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VIEW2SPACE は、多様で高忠実度な3Dシーンと正確なビューごとのメタデータを備えた疎な多視点推論のベンチマークであり、現実世界の設定へ転用可能なスケーラブルなデータ生成を実現します。
  • 本研究では、現行のビジョン-言語モデルおよび空間モデルが、マルチビュー推論タスクでランダム以上のわずかな改善しか達成しておらず、未解決の問題が大半であることが示されました。
  • 著者らは、視覚的証拠を取り入れた Grounded Chain-of-Thought を提案し、中程度の難易度で性能を大幅に改善し、既存アプローチよりデータセット間での一般化性能が高くなることを示しています。
  • 難易度を考慮したスケーリング分析を、モデルサイズ、データ規模、推論の深さ、視認性の制約の観点から行った結果、視認性が良好な場合には幾何的知覚のスケーリング効果が現れる一方、疎な視点間での深い構成推論は依然として根本的な課題であることがわかりました。

要旨: 多視点ビジュアル推論は、まばらで離散的な視点から複雑な環境を理解する必要がある知的システムにとって不可欠ですが、既存の研究は主に単一画像または時系列密な映像設定に焦点を当ててきました。現実世界のシナリオでは、視点を跨ぐ推論には明示的な指針なしに部分的な観測を統合することが求められ、正確な幾何学的および意味的注釈を備えた大規模な多視点データの収集は依然として困難です。このギャップに対処するため、物理的に根拠づけられたシミュレーションを活用して、各視点ごとの正確なメタデータを備えた多様で高忠実度な3Dシーンを構築し、現実世界の設定にも移植可能なスケーラブルなデータ生成を可能にします。このエンジンを基盤として、VIEW2SPACEを導入します。これはスパースな多視点推論のための多次元ベンチマークであり、数百万の根拠付けられた質問回答ペアをサポートするスケーラブルで分離された訓練分割とともに提供します。このベンチマークを用いた最先端の視覚言語モデルおよび空間モデルの包括的な評価は、多視点推論が依然として大半が未解決であり、ほとんどのモデルがランダム推測をわずか上回る程度のパフォーマンスしか示さないことを明らかにしています。私たちはさらに、訓練がこのギャップを橋渡しできるかどうかを検証します。提案する Grounded Chain-of-Thought with Visual Evidence は、中程度の難易度において性能を大幅に改善し、現実世界データへ一般化し、データセット間評価において既存アプローチを上回ります。さらに、難易度を意識したスケーリング分析を、モデルサイズ、データ規模、推論の深さ、および可視性の制約にわたって実施し、可視性が十分な場合には幾何的知覚がスケーリングの恩恵を受け得る一方、スパースな視点間での深い構成推論は依然として根本的な課題であることを示しています。