UniDoc-RL:階層的アクションと高密度報酬による粗視点から精緻化するビジュアルRAG

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

要点

  • UniDoc-RLは、ビジュアルRAG向けの新しい強化学習フレームワークで、LVLMエージェントが検索・再ランキング・能動的な視覚認識・推論を同時に行えるようにします。
  • 階層的なアクション空間を用いて、粗い文書検索から細かな画像選択、さらに領域レベルのクロッピングへと段階的に視覚的根拠を精緻化し、無関係な情報を抑制します。
  • 並列でなく逐次の視覚情報獲得を学習するため、各アクションにタスクに応じた教師信号を与える高密度なマルチ報酬スキームを提案します。
  • UniDoc-RLはGroup Relative Policy Optimization(GRPO)で学習し、複数目的に整合させながらも別個の価値ネットワークを使わない設計です。
  • 3つのベンチマークで実験した結果、既存の最先端手法を一貫して上回り、従来のRLベース手法より最大17.7%の改善が示されています。

要旨: Retrieval-Augmented Generation(RAG)は、外部の視覚知識により大規模な視覚言語モデル(LVLM)を拡張します。しかし、既存の視覚RAGシステムは典型的に、複雑な推論に不可欠なきめ細かな視覚セマンティクスを見落としてしまう汎用的な検索シグナルに依存しています。この制約に対処するために、本研究ではUniDoc-RLを提案します。UniDoc-RLは統合的な強化学習の枠組みであり、LVLMエージェントが検索、再ランキング、能動的な視覚知覚、推論を共同で実行します。UniDoc-RLでは、視覚情報の獲得を階層型の行動空間を持つ逐次意思決定問題として定式化します。具体的には、粗い粒度の文書検索から、細かい粒度の画像選択、さらに能動的な領域クロッピングへと段階的に視覚的証拠を洗練させることで、無関係な内容を抑制し、情報密度の高い領域へ注意を向けられるようにします。エンドツーエンドの効果的な学習のために、各行動に対してタスクに応じた監督を与える、密なマルチ報酬スキームを導入します。Group Relative Policy Optimization(GRPO)に基づき、UniDoc-RLは、別個の価値ネットワークに頼ることなく、エージェントの行動を複数の目的に整合させます。この学習パラダイムを支えるために、行動のきめ細かなアノテーション付きの高品質な推論軌跡からなる包括的なデータセットを構築します。3つのベンチマークでの実験により、UniDoc-RLが一貫して最先端のベースラインを上回り、従来のRLベース手法に対して最大17.7%の向上が得られることを示します。