要旨: 既存のマルチモーダル大規模言語モデル(MLLMs)は、文書長が増加するにつれて、長文書理解タスクにおいて大きな性能劣化を示します。これは、2つの根本的な課題に起因します。1)信号対雑音比(SNR)が低く、重要な証拠が無関係なページの中に埋もれてしまうこと、そして2)最終的な短い回答のみを提供するデータセットでは学習に弱い信号しか得られないため、教師ありデータの不足があることです。本論文では、モデルに対し、構造化された ``\textbf{分析}, \textbf{位置特定} and \textbf{推論}'' のワークフローを実行させることを要求するパラダイムを提案することで、これらの課題に取り組みます。この能力を備えさせるために、2段階の学習フレームワークを設計します。まず、効率的な知識蒸留戦略により生成した高品質データに対して教師あり微調整(Supervised Fine-Tuning)を行います。次に、証拠に着目したグループ相対方策最適化(Evidence-aware Group Relative Policy Optimization)を用いて、証拠の位置特定と回答精度の双方を同時に最適化します。さらに、多ページ文書の学習に伴うメモリ制約を緩和するために、Evidence-Guided Resolution Allocation 戦略も導入します。大規模な実験の結果、DocSeeker はドメイン内タスクおよびドメイン外タスクの両方で優れた性能を達成することが示されます。短いページでの学習から超長文書へ頑健に一般化できること、また視覚に基づく Retrieval-Augmented Generation システムと自然に相乗効果を発揮し、それらの実装のための堅固な基盤となることを示します。
DocSeeker:証拠の根拠付けによる長文理解のための構造化された視覚推論
arXiv cs.AI / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、既存のマルチモーダルLLMが長文理解で劣化するのは、低い信号対雑音比(重要な証拠が無関係なページに埋もれる)と、最終的な短い回答のみを学習データとして与えることによる弱い教師信号のためだと主張している。
- DocSeekerは、関連する証拠の位置を特定し、それを用いて正確な回答を導くようモデルに強制する、構造化されたワークフロー――分析、ローカライズ、推論――を導入する。
- 2段階の学習アプローチを用いる。まず高品質な蒸留データに対する教師あり微調整を行い、その後、証拠を意識したポリシー最適化によって、証拠のローカライズと回答精度を同時に改善する。
- 多ページにまたがるメモリ制限に対処するため、学習時にEvidence-Guided Resolution Allocation(証拠に導かれた解像度配分)戦略を提案する。
- 実験では、インドメインおよびアウト・オブ・ドメインの両タスクで性能が向上し、超長文に対する頑健な一般化が確認され、視覚的リトリーバル強化生成システムとも互換性があることが報告されている。




