TableVision:複雑な階層型テーブル上での空間的に根拠づけられた推論のための大規模ベンチマーク

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑な階層型テーブルに対して空間的に根拠づけられた推論を行う際、マルチモーダル大規模言語モデルに「知覚ボトルネック」が存在することを指摘している。具体的には、離散的な視覚領域の数がタスクの複雑さよりも速く増加する。
  • TableVisionを提案する。これは、ピクセル単位で正確な空間的グラウンディングを提供し、階層型テーブル配置における複数ステップの論理的演繹を扱える、大規模かつ軌跡(トラジェクトリ)を考慮したベンチマークである。
  • TableVisionは、認知レベルを3段階(知覚、推論、分析)に分類し、13のサブカテゴリにまたがるタスクを扱う。また、高忠実度の推論トラジェクトリとして6,799件を含む。
  • 診断用プロービングの実験により、明示的な空間制約を追加すると空間的注意が改善され、MLLMの推論性能が回復することが示される。
  • 2段階のデカップルド(分離)フレームワークにより、テストセットにおいて全体で12.3%の精度向上が報告される。TableVisionは、ドキュメント理解における知覚と論理の相乗効果(perception–logic synergy)の検証基盤として位置づけられる。