Focus, Don't Prune: 情報量の多い画像理解のための命令に関連する領域の特定

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、情報量の多い画像（多数の視覚トークンを生成する必要がある画像）を扱う際に、大規模ビジョン言語モデルが計算オーバーヘッドの面で苦戦していることを指摘しています。
2段階の枠組みである PinPoint を提案し、まず命令に関連する領域を検出し、次にそれらを洗練（refine）して推論に必要なきめ細かい視覚的特徴を捉えます。
この手法は、画像内容とテキスト指示の両方を用いて関連領域を局在化する Instruction-Region Alignment コンポーネントに依存しています。
著者らは、新たに注釈（アノテーション）を追加し、InfographicVQA、MultiPageDocVQA、SinglePageDocVQA の各ベンチマークにおける命令に関連する領域に対する、より強い教師データ（ground-truth）の監督を提供します。
実験の結果、PinPoint は、無関係な領域からのトークン数を最小化することで計算量を削減しつつ、精度を向上させることが示されています。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to