要旨: 現在の Retrieval-Augmented Generation (RAG) の文書チャンク化手法は通常テキストを線形化します。この強制的な線形化は内在するトポロジ的階層を取り除き、下流の検索品質を低下させる「意味的断片化」を生み出します。本論文では、TopoChunker というエージェント型フレームワークを提案します。これは異種の文書を構造化中間表現(SIR)にマッピングし、セグメント間の依存関係を明示的に保持します。構造的忠実性と計算コストのバランスを取るため、TopoChunker はデュアルエージェントアーキテクチャを採用します。Inspector Agent はコスト最適化された抽出経路を動的にルーティングし、Refiner Agent は容量の監査とトポロジカル文脈の曖昧さの解消を行い、階層的系譜を再構築します。非構造化ナラティブ(GutenQA)および複雑なレポート(GovReport)で評価したところ、TopoChunker は最先端の性能を示します。最も強力な LLM ベースの基準モデルを絶対生成精度で8.0%上回り、Recall@3 が83.26%に達します。同時に、トークンオーバーヘッドを23.5%削減し、構造を意識したRAGに対するスケーラブルなアプローチを提供します。
TopoChunker: トポロジー対応のエージェント型文書チャンク化フレームワーク
arXiv cs.CL / 2026/3/20
📰 ニュースModels & Research
要点
- TopoChunkerは、検索付き生成における文書チャンク化のためのトポロジー対応フレームワークを導入し、内容を構造化された中間表現へマッピングすることでセグメント間の依存関係を保持します。
- これはコスト最適化された抽出経路に沿って文書をルーティングするInspector Agentと、容量を監査しトポロジー的文脈の曖昧さを解消して階層的系譜を再構成するRefiner Agentの二重エージェント系を採用します。
- このアプローチはGutenQAと GovReportで最先端の結果を達成し、強力なLLMベースラインを絶対生成精度で8.0ポイント上回り、Recall@3は83.26%を記録しています。
- また、トークンオーバーヘッドを23.5%削減し、構造認識型RAGのスケーラブルな解決策を提供し、将来のRAGパイプラインの形成に寄与する可能性があります。