VisDoT: 人間のような解釈によるグラウンディングと思考の分解を通じた視覚推論の強化
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- VisDoT は、グラフィカル知覚理論に基づく4つの知覚タスクを定義し、位置や長さといった視覚的プリミティブをチャート理解のためにより適切にグラウンディングします。
本文: arXiv:2603.11631v1 アナウンス種別: new
アブストラクト: 大規模なビジョン-ランゲージモデル(LVLM)は、チャートにおける視覚的プリミティブを安定して検出し、それらを意味表現と整合させることに苦労しており、複雑な視覚推論における性能を著しく制限している。この知覚グラウンディングの欠如は、チャートベースの推論にとって重大なボトルネックを構成する。我々は VisDoT を提案する。それは人間のような解釈に基づくグラウンディングを通じて視覚推論を強化するフレームワークである。グラフィカル知覚理論に基づく4つの知覚タスク(位置と長さを含む)を形式化する。この基盤の上に、思考分解(DoT)プロンプティングを導入する。これにより、問いを視覚知覚サブ質問と論理サブ質問に順次分離する。VisDoT を用いて InternVL をファインチューニングすると ChartQA で +11.2% の改善を達成し、より難易度の高い ChartQAPro ベンチマークでは GPT-4o を上回った。新たに導入された VisDoTQA ベンチマークでは、モデルが +33.2% の改善を達成する。さらに、多様なオープンドメイン VQA ベンチマークでの一貫したゼロショットの向上は、視覚質問応答における知覚-論理分離戦略の一般化可能性を確認する。VisDoT は人間のような知覚を活用して視覚グラウンディングを強化し、最先端のチャート理解と解釈可能な視覚推論を実現する。