TableVision：複雑な階層型テーブル上での空間的に根拠づけられた推論のための大規模ベンチマーク

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複雑な階層型テーブルに対して空間的に根拠づけられた推論を行う際、マルチモーダル大規模言語モデルに「知覚ボトルネック」が存在することを指摘している。具体的には、離散的な視覚領域の数がタスクの複雑さよりも速く増加する。
TableVisionを提案する。これは、ピクセル単位で正確な空間的グラウンディングを提供し、階層型テーブル配置における複数ステップの論理的演繹を扱える、大規模かつ軌跡（トラジェクトリ）を考慮したベンチマークである。
TableVisionは、認知レベルを3段階（知覚、推論、分析）に分類し、13のサブカテゴリにまたがるタスクを扱う。また、高忠実度の推論トラジェクトリとして6,799件を含む。
診断用プロービングの実験により、明示的な空間制約を追加すると空間的注意が改善され、MLLMの推論性能が回復することが示される。
2段階のデカップルド（分離）フレームワークにより、テストセットにおいて全体で12.3%の精度向上が報告される。TableVisionは、ドキュメント理解における知覚と論理の相乗効果（perception–logic synergy）の検証基盤として位置づけられる。

AI Business

Dev.to

Dev.to

Dev.to

Dev.to