要旨: リトリーバル強化生成(RAG)は外部知識によって大規模言語モデルを強化し、ツリーベースのRAGは階層的なインデックスによってドキュメントを整理することで、複数の粒度でのクエリを支援します。 しかし、単一ドキュメントの検索を想定して設計された既存のTree-RAG手法は、クロスドキュメントのマルチホップ質問へのスケールにおいて重大な課題に直面します: (1) 分布適応性の低さで、k-meansクラスタリングが硬直した分布仮定によりノイズを導入すること; (2) 構造的な隔絶で、ツリーインデックスには明示的なクロスドキュメント間の接続がないこと; (3) 粗い抽象化で、細かな詳細が見えにくくなること。 これらの制約に対処するために、2つの主要コンポーネントを備えたツリーRAGフレームワークである
-RAGを提案します。 第一に、「マージして畳み込む(merging and collapse)」という反復的なプロセスによって構築される階層的抽象ツリーインデックスであり、事前の仮定なしにデータ分布に適応します。 第二に、再編されたクエリとエージェント駆動型のハイブリッドリトリーバによって知識ベースとインテリジェントに相互作用する、多粒度の検索エージェントです。-RAGは、トークンレベルの質問応答からドキュメントレベルの要約まで、さまざまなタスクをサポートします。 クロスドキュメントのマルチホップQAベンチマークでは、平均F1スコアにおいてRAPTORを25.9%上回り、HippoRAG 2を7.4%上回ります。 コードは https://github.com/Newiz430/Psi-RAG で入手できます。



