「コンテキストは決して十分に長くない」:長大な文書集合に対するスケーラブルな質問応答のための構造化推論

arXiv cs.AI / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数文書や各文書の各所にまたがる根拠を統合する必要がある実環境の文書QAにおいて、文書コレクションが大きくなると固定長のLLMコンテキスト窓を超えてしまう問題を扱っています。
  • 既存の一般的な回避策である文書のチャンク分割と出力の組み立ては、チャンク数が増えるほど「集約ボトルネック」が生じ、抽出した根拠の増大した集合を理由付け・統合する必要が出ると指摘しています。
  • SLIDERSは、重要な情報をリレーショナルDBに抽出・格納し、連結テキストではなくSQLによって永続的な構造化状態上でスケーラブルに推論する枠組みとして提案されます。
  • 局所的に抽出された表現の整合性を全体として保つために、SLIDERSはデータの照合(reconciliation)段階を導入し、プロベナンス、抽出の根拠(rationales)、メタデータを用いて重複・矛盾・不完全な記録を検出して修復します。
  • 既存の長文脈ベンチマークで基準手法を上回り、GPT-4.1の強いベースラインを平均6.6ポイント上回るほか、新ベンチマークでも3.9Mおよび36Mトークン時に大きな改善(約19〜32ポイント)を示しています。

要旨: 現実世界の文書質問応答は困難です。アナリストは、複数の文書にまたがる証拠を、さらに各文書の異なる部分から統合しなければなりません。しかし、文書コレクションが成長するにつれて、固定されたあらゆるLLMのコンテキストウィンドウを超えてしまう可能性があります。一般的な回避策は、文書をチャンクに分解し、チャンク単位の出力から回答を組み立てることですが、これは集約のボトルネックを導入します。チャンク数が増えるほど、システムは抽出された証拠のますます大きな集合を組み合わせ、そこから推論しなければならなくなります。我々は、構造化された推論によって長い文書コレクションに対する質問応答を行うための枠組みであるSLIDERSを提示します。SLIDERSは、関連性の高い情報をリレーショナルデータベースへ抽出し、連結されたテキストではなくSQLによって、永続的な構造化状態に対してスケーラブルに推論できるようにします。ローカルに抽出されたこの表現をグローバルに一貫したものにするために、SLIDERSはデータ整合(reconciliation)段階を導入します。この段階では、プロベナンス(出所)、抽出の根拠、メタデータを活用して、重複した、不整合な、または不完全な記録を検出し、修復します。SLIDERSは、既存の3つの長文脈ベンチマークにおいて、すべてのベースラインが強力なベースLLMのコンテキストウィンドウ内に収まるにもかかわらず、平均でGPT-4.1を6.6ポイント上回って最高性能を示します。また、次に最良のベースラインに対して、3.9Mおよび36Mトークンの2つの新しいベンチマークでそれぞれ約19ポイントおよび約32ポイント改善します。