Chain of Evidence：反復型リトリーバル拡張生成におけるピクセルレベルの視覚的帰属

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、反復型リトリーバル拡張生成（iRAG）におけるピクセルレベルの視覚的帰属のための、Retriever非依存フレームワーク「Chain of Evidence（CoE）」を提案します。
CoEは、従来のiRAGが抱える2つの課題、(1) テキスト単位の粗い引用によりユーザーが長文中の根拠を手作業で探す負担が大きいこと、(2) スライドや図表付きPDFなどのレイアウトがテキスト化されることで空間的な手がかりが失われる「visual semantic loss」を解決します。
CoEは、解析済みテキストに依存せず、取得した文書候補のスクリーンショットに対してVision-Languageモデルで推論し、根拠を示す正確なバウンディングボックスを出力します。
評価では、Wiki-CoE（2WikiMultiHopQA由来の構造化Webページ）とSlideVQA（複雑な図と自由なレイアウトを含むプレゼン資料）という2つのベンチマークを用います。
微調整したQwen3-VL-8B-Instructは、視覚レイアウト理解が必要な場面でテキストベースのベースラインを大きく上回り、ピクセルレベルで解釈可能なiRAGのRetriever非依存解として有効性を示しています。

概要: 反復型リトリーバル拡張生成（iRAG）は、外部ドキュメントを段階的に取得し推論することで、複雑なマルチホップ質問に答えるための強力なパラダイムとして登場しました。しかし、現在のシステムは主として解析済みテキスト上で動作しており、重大な2つのボトルネックが生じます: （1）\textit{粗い粒度の帰属}。ここでは、ユーザが、曖昧なテキスト単位の引用に基づいて長大なドキュメント内の根拠を手作業で探し出す負担を負うことになります。（2）\textit{視覚的意味の損失}。視覚的に豊かなドキュメント（例: スライド、図表を含むPDF）をテキストへ変換する際に、推論に不可欠な空間的な論理やレイアウト手がかりが失われてしまいます。このギャップを埋めるために、我々は \textbf{Chain of Evidence（CoE）} を提案します。CoE は、取得器に依存しない（retriever-agnostic）視覚的帰属のためのフレームワークであり、Vision-Language Models を活用して、取得されたドキュメント候補のスクリーンショットそのものに対して直接推論します。CoE は形式固有のパースを不要にし、正確なバウンディングボックスを出力することで、取得された候補集合内で完全な推論の連鎖（reasoning chain）を可視化します。CoE を2つの異なるベンチマークで評価します: \textbf{Wiki-CoE} は、2WikiMultiHopQA から派生した構造化ウェブページの大規模データセットであり、\textbf{SlideVQA} は、複雑な図と自由形式のレイアウトを特徴とする、難易度の高いプレゼンテーションスライドのデータセットです。実験の結果、微調整した Qwen3-VL-8B-Instruct は、視覚的なレイアウト理解が必要となるシナリオにおいて、テキストベースのベースラインを大幅に上回る堅牢な性能を達成し、ピクセルレベルで解釈可能な iRAG のための取得器非依存の解法を確立することが示されました。コードは https://github.com/PeiYangLiu/CoE.git で公開しています。