MM-Doc-R1：長文書のビジュアル質問応答のためのマルチターン強化学習によるエージェント学習

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来の単発型RAGでは複雑なマルチホップのクエリに対応しにくい長文書のビジュアル質問応答を改善することを目的とした、エージェント型かつ視覚認識を考慮したフレームワークMM-Doc-R1を提案する。
マルチターン強化学習の安定性を高めるためにSimilarity-based Policy Optimization（SPO）を導入する。これは、類似度で重み付けした軌跡（トラジェクトリ）の報酬を用いることで、より良いベースライン推定を実現し、GRPOのような先行手法に見られるバイアス課題に対処する。
著者らの主要な技術的主張は、「意味的により類似した軌跡ほど、共有ベースラインの推定がより正確になる」という点であり、SPOはこれを活用して中間状態全体にわたるより信頼できる学習信号を提供する。
MMLongbench-Docベンチマークでの実験では、MM-Doc-R1が従来ベースラインに対して10.4%の改善を達成し、さらにSPOはGRPOに対して追加の改善をもたらす（Qwen3-8Bで5.0%、Qwen3-4Bで6.1%）。
全体として本研究は、反復的な情報探索／統合を行うエージェントのワークフローを、修正したマルチターンRL学習目的と組み合わせることで、長文書VQAにおける最先端性能の向上につながると論じている。

要旨: 従来のRetrieval-Augmented Generation（RAG）システムは、長い文書に対する複雑なマルチホップのクエリにしばしば苦戦します。それは、単回の検索によってしまうためです。本研究では、反復的な情報発見と統合によって長文書の視覚質問応答を扱うために、エージェント型で視覚を考慮したワークフローを用いる新しい枠組みMM-Doc-R1を提案します。エージェントの情報探索能力を促すために、GRPOのような既存のマルチターン強化学習（RL）アルゴリズムにおけるベースライン推定バイアスに対処する、類似度に基づくポリシー最適化（Similarity-based Policy Optimization: SPO）を提案します。私たちの中核となる洞察は、マルチターンRLでは、2つの軌跡が意味的により類似しているほど、それらが共有するベースライン推定の精度が高まる、という点です。これを活用し、SPOは複数の軌跡にまたがる報酬を類似度で重み付けした平均によってより正確なベースラインを計算します。一方でGRPOは、最初の状態のベースラインをすべての中間状態に不適切に適用します。これにより、エージェントに対してより安定で正確な学習シグナルが得られ、その結果として、GRPOを上回る優れた学習性能につながります。MMLongbench-Docベンチマークでの実験では、MM-Doc-R1が既存のベースラインを10.4%上回りました。さらにSPOはGRPOよりも優れた性能を示し、Qwen3-8Bで5.0%、Qwen3-4Bで6.1%結果を押し上げています。これらの結果は、複雑で長文書の視覚質問応答に対して、統合された枠組みと新しい学習アルゴリズムが最先端を前進させるうえで有効であることを示しています。

Black Hat Asia

AI Business

2026年のベストAI動画生成ツール（本当のコンテンツにちゃんと使えるもの）

Dev.to

「Vibe Coding」は冗談から職種名へ——わずかの時間で現実の仕事に

Dev.to

流出したコード51.2万行が露出：Anthropicの秘密モデルが発覚

Dev.to

AIエージェントのジレンマ：なぜ知性より効率が競争的経済で勝つのか

Dev.to

MM-Doc-R1：長文書のビジュアル質問応答のためのマルチターン強化学習によるエージェント学習

要点

関連記事

Black Hat Asia

2026年のベストAI動画生成ツール（本当のコンテンツにちゃんと使えるもの）

「Vibe Coding」は冗談から職種名へ——わずかの時間で現実の仕事に

流出したコード51.2万行が露出：Anthropicの秘密モデルが発覚

AIエージェントのジレンマ：なぜ知性より効率が競争的経済で勝つのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer