Doc-V*: 複数ページ文書VQAのための粗視化から精密化へのインタラクティブ・ビジュアル推論

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、OCRを用いないエージェント型フレームワーク「Doc-$V^*$」を提案し、受動的な検索ではなく逐次的な証拠集約によって複数ページ文書のビジュアル質問応答（Document Visual Question Answering）を行う。
Doc-$V^*$はサムネイル概要から開始し、意味的な検索と対象を絞ったページ取得を組み合わせて文書内を能動的にナビゲートし、最も関連性の高いページのみを収集する。
本手法は、推論のために根拠づけられた証拠を集約する構造化された作業メモリを維持し、文書長に比例してコストが増大することなく精度の向上を目指す。
学習では、専門家の軌跡からの模倣学習を行った後、答えの質と証拠探索の効率のバランスを取るためにGroup Relative Policy Optimizationで最適化する。
5つのベンチマークでの実験により、Doc-$V^*$はオープンソースのベースラインを上回り、RAGベースラインに対して最大47.9%のアウト・オブ・ドメイン性能向上を達成した。さらに追加分析から、改善は単により多くのページを使ったことによるものではなく、より良い証拠集約に起因することが示された。

要旨: 多ページの文書ビジュアル質問応答（Multi-page Document Visual Question Answering）では、長く視覚的に情報量の多い文書内で、意味、レイアウト、視覚要素を用いた推論が必要となります。既存のOCRフリー手法は、容量と精度の間でトレードオフに直面しています。エンドツーエンドモデルは文書長に対してスケールしにくく、一方でビジュアル・リトリーバル（検索）ベースのパイプラインは脆く、受動的です。私たちは、マルチページDocVQAを逐次的な証拠の集約として捉える、
\textbf{OCRフリーのエージェント的}枠組み Doc- $V^*$ を提案します。Doc- $V^*$ は、サムネイルによる概観から始め、次に意味に基づく検索と、狙いを定めたページ取得によって能動的にナビゲートし、根拠に基づく推論のための構造化されたワーキングメモリに証拠を集約します。専門家の軌跡からの模倣学習で訓練し、さらに Group Relative Policy Optimization により最適化することで、Doc- $V^*$ は、証拠探索の効率とのバランスを取りつつ、回答精度を両立します。5つのベンチマークにおいて、Doc- $V^*$ はオープンソースのベースラインを上回り、専有モデルに近づきます。さらに、RAGベースラインに対して最大
\textbf{47.9\%} のアウト・オブ・ドメイン性能向上を実現します。他の結果からは、入力ページ数の増加ではなく、選択的注意による効果的な証拠集約が示されます。