SPIRE:構造を保持した解釈可能な証拠のリトリーバル(Structure-Preserving Interpretable Retrieval of Evidence)

arXiv cs.CL / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、HTMLのような半構造化ドキュメントに対するRAG(retrieval-augmented generation)が、文書構造がフラットなチャンクに平坦化されてしまうことにより制約を受けると指摘しています。
  • SPIREは、木構造の文書に対して動作し、検索候補をパスやパス集合などの構造プリミティブで定義されたアドレス可能なサブドキュメント(部分選択)として表現する、構造を保持したリトリーバル手法を提案します。
  • SPIREはグローバルおよびローカルの文脈化を導入しており、グローバルはタイトルや見出し、リスト/テーブル構造などの非局所的な足場を追加し、ローカルは近傍の構造内でシード選択を拡張して、予算内のコンパクトで文脈に富む証拠を作ります。
  • 埋め込みベースの候補生成(文中文としてのシード付きサブドキュメントの索引化)と、共有する構造文脈を使い回すクエリ時の集約ステップを備え、その後にローカル文脈化ビューで再スコアするコンテキストフィルタリングを行います。
  • HTMLの質問応答ベンチマークでの実験では、固定された検索予算のもとで、SPIREが強力なパッセージベースのベースラインより高品質かつ多様な引用を実現しつつ、スケーラビリティも維持できることが示されています。

Abstract

HTMLのような半構造化ソースに対する検索強化生成は、文書構造と、今日の埋め込みモデルおよび生成モデルが提供する平坦な、シーケンスベースのインターフェースとの間にある不一致によって制約されます。検索パイプラインは、多くの場合、インデックス作成の前に文書を固定サイズのチャンクへ線形化し、その結果、セクション構造、リスト、表が見えにくくなります。また、解釈可能にする周辺コンテキストを失うことなく、小さくて引用に適した根拠を返すことが困難になります。 本研究では、木構造化された文書上で動作する、構造を意識した検索パイプラインを提案します。中核となる考え方は、候補をサブドキュメントとして表現することです。すなわち、構造上の同一性を保持しつつ、周辺コンテキストの選択を後回しにする、正確でアドレス可能な選択です。私たちは、少数の文書プリミティブ—パスおよびパス集合、剪定(pruning)によるサブドキュメント抽出、そして2つのコンテキスト化メカニズム—を定義します。グローバルなコンテキスト化は、選択を理解可能にするために必要な非局所的な足場(例えば、タイトル、ヘッダ、リストおよび表の構造)を追加します。ローカルなコンテキスト化は、構造的近傍の中でシード選択を拡張し、目標の予算のもとでコンパクトでコンテキストに富んだ見え方を得るためのものです。これらのプリミティブに基づき、文埋め込みに基づく候補生成器を、文ベースのシードによりサブドキュメントをインデックス化する形で説明し、さらにクエリ時に文書を意識した集約ステップを導入します。この集約ステップは、共有される構造コンテキストを償却(amortize)します。続いて、ローカルにコンテキスト化されたビューを用いて、取得した候補を再スコアするコンテキストフィルタリング段階を導入します。 HTMLの質問応答ベンチマークにおける一連の実験を通じて、構造を保持しつつ選択をコンテキスト化することで、固定された予算のもとで、強力なパッセージベースのベースラインよりも高品質で、より多様な引用が得られることを確認しました。また、スケーラビリティも維持されます。