要旨: 近年の視覚-言語モデルの進展により、テキスト、表、図からの構造化された視覚的手がかりを活用する文書の質問応答を含む、多様なマルチモーダル課題において目覚ましい性能が示されています。しかし、自然画像とは異なり、文書画像には大きな背景が含まれ、裏付けとなる証拠はわずかしかありません。そのため、特に長文書では、大規模な計算リソースが非効率に消費されます。私たちは、自然画像や動画に対する既存のトークン削減手法が、文書に特有の構造的な疎性を十分に活用できていないことを観察しました。これに対処するため、長文書理解を効率化するための、学習不要かつ段階的な文書トークン削減フレームワークであるDocPruneを提案します。提案手法は、背景や質問に無関係なトークンのような不要なトークンを除去しつつ、課題にとって不可欠なトークンのみを保持します。さらに、この手法は、モデルの理解度に基づいて、トークン削減を開始する適切な層を自動的に選択します。M3DocRAGに関する実験の結果、DocPruneはエンコーダとデコーダそれぞれにおいてスループットを3.0倍および3.3倍向上させると同時に、F1スコアを+1.0改善し、追加の学習なしでより高い精度と効率の両立を達成することが分かりました。
DocPrune:背景・質問・理解度に応じたトークン枝刈りによる効率的な文書質問応答
arXiv cs.CV / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- DocPrune(学習不要・逐次型の文書トークン枝刈り)を提案し、長文書のドキュメントQAを効率化する方針を示しています。
- 文書画像特有の構造的スパース性(大きな背景に対して根拠は点在)を活かし、背景や質問に無関係なトークンなど不要トークンを除去します。
- モデルの理解度に応じて、どの層から枝刈りを開始するかを自動で選択することで、性能劣化を抑えつつ最適な削減を実現します。
- M3DocRAGでの実験では、エンコーダでスループット3.0倍、デコーダで3.3倍の向上に加え、F1スコアを+1.0改善し、追加学習なしで精度と効率の両立を達成したと報告しています。



