文書をまたぐ検索拡張生成のための階層型アブストラクト・ツリー

arXiv cs.AI / 2026/5/4

📰 ニュースModels & Research

要点

  • 本論文は、単一文書の検索に限らず文書をまたぐマルチホップ質問応答を目的にしたTree-RAGの枠組み「Ψ-RAG」を提案している。
  • Ψ-RAGは、既存のTree-RAGのスケール問題(分布への適応不足、文書間の構造的な隔離、粗すぎる抽象化)に対して、階層型アブストラクト・ツリーを「マージ」と「崩壊(collapse)」の反復手順で生成し、事前の仮定なしにデータ分布へ適応することで対応している。
  • さらに、クエリを再編成し、エージェント駆動のハイブリッド検索を用いて文書間のつながりを捉えながら探索できるマルチグラニュラティ・リトリーバル・エージェントを導入している。
  • クロスドキュメント・マルチホップQAベンチマークで、Ψ-RAGは平均F1スコアにおいてRAPTORに対して25.9%、HippoRAG 2に対して7.4%上回る結果が示され、実装コードもGitHubで公開されている。

要旨: リトリーバル強化生成(RAG)は外部知識によって大規模言語モデルを強化し、ツリーベースのRAGは階層的なインデックスによってドキュメントを整理することで、複数の粒度でのクエリを支援します。 しかし、単一ドキュメントの検索を想定して設計された既存のTree-RAG手法は、クロスドキュメントのマルチホップ質問へのスケールにおいて重大な課題に直面します: (1) 分布適応性の低さで、k-meansクラスタリングが硬直した分布仮定によりノイズを導入すること; (2) 構造的な隔絶で、ツリーインデックスには明示的なクロスドキュメント間の接続がないこと; (3) 粗い抽象化で、細かな詳細が見えにくくなること。 これらの制約に対処するために、2つの主要コンポーネントを備えたツリーRAGフレームワークである

-RAGを提案します。 第一に、「マージして畳み込む(merging and collapse)」という反復的なプロセスによって構築される階層的抽象ツリーインデックスであり、事前の仮定なしにデータ分布に適応します。 第二に、再編されたクエリとエージェント駆動型のハイブリッドリトリーバによって知識ベースとインテリジェントに相互作用する、多粒度の検索エージェントです。
-RAGは、トークンレベルの質問応答からドキュメントレベルの要約まで、さまざまなタスクをサポートします。 クロスドキュメントのマルチホップQAベンチマークでは、平均F1スコアにおいてRAPTORを25.9%上回り、HippoRAG 2を7.4%上回ります。 コードは https://github.com/Newiz430/Psi-RAG で入手できます。