Focus, Don't Prune: 情報量の多い画像理解のための命令に関連する領域の特定

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文では、情報量の多い画像(多数の視覚トークンを生成する必要がある画像)を扱う際に、大規模ビジョン言語モデルが計算オーバーヘッドの面で苦戦していることを指摘しています。
  • 2段階の枠組みである PinPoint を提案し、まず命令に関連する領域を検出し、次にそれらを洗練(refine)して推論に必要なきめ細かい視覚的特徴を捉えます。
  • この手法は、画像内容とテキスト指示の両方を用いて関連領域を局在化する Instruction-Region Alignment コンポーネントに依存しています。
  • 著者らは、新たに注釈(アノテーション)を追加し、InfographicVQA、MultiPageDocVQA、SinglePageDocVQA の各ベンチマークにおける命令に関連する領域に対する、より強い教師データ(ground-truth)の監督を提供します。
  • 実験の結果、PinPoint は、無関係な領域からのトークン数を最小化することで計算量を削減しつつ、精度を向上させることが示されています。