Focus, Don't Prune: 情報量の多い画像理解のための命令に関連する領域の特定
arXiv cs.CV / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文では、情報量の多い画像(多数の視覚トークンを生成する必要がある画像)を扱う際に、大規模ビジョン言語モデルが計算オーバーヘッドの面で苦戦していることを指摘しています。
- 2段階の枠組みである PinPoint を提案し、まず命令に関連する領域を検出し、次にそれらを洗練(refine)して推論に必要なきめ細かい視覚的特徴を捉えます。
- この手法は、画像内容とテキスト指示の両方を用いて関連領域を局在化する Instruction-Region Alignment コンポーネントに依存しています。
- 著者らは、新たに注釈(アノテーション)を追加し、InfographicVQA、MultiPageDocVQA、SinglePageDocVQA の各ベンチマークにおける命令に関連する領域に対する、より強い教師データ(ground-truth)の監督を提供します。
- 実験の結果、PinPoint は、無関係な領域からのトークン数を最小化することで計算量を削減しつつ、精度を向上させることが示されています。
