HaS:相同性(ホモロジー)を考慮した推論型リトリーバルでRAGを高速化

arXiv cs.CL / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、RAG(Retrieval-Augmented Generation)の高速化を目的に、「相同性(ホモロジー)を考慮した推論型リトリーバル(speculative retrieval)」であるHaSを提案しています。
  • HaSは、遅いフルデータベース検索を避けるため、まず限定された範囲で低遅延の推論型リトリーバルにより候補文書を取得し、その後に相同性に基づいて候補を検証します。
  • 検証は「相同クエリ再同定」タスクとして定式化され、過去に観測された相同なクエリが新規クエリと同等であると確認できれば、ドラフトを許容して高コストな検索をスキップできます。
  • 実験では、HaSが取得(リトリーバル)のレイテンシを23.74%および36.99%削減しつつ、精度の低下は1〜2%にとどまることが示され、さらにマルチホップのエージェント型RAGでもプラグアンドプレイで高速化できると報告されています。
  • 著者はGitHub上でソースコードを公開しており、導入や追加検証を支援しています。

Abstract

生成拡張(RAG)は、推論時に外部文書をコンテキストとして取得することで、大規模言語モデル(LLM)の知識境界を拡張します。しかし、知識データベースが大規模になるほど、取得(リトリーバル)はますます時間がかかるようになります。既存の高速化戦略は、近似取得によって精度を損ねるか、厳密に同一のクエリ結果を再利用することでわずかな利得しか得られないかのどちらかです。そこで本論文ではHaS(ホモロジー対応の投機的取得フレームワーク)を提案します。HaSは、限定されたスコープ上で低遅延の投機的取得を行って候補文書を取得し、その後、それらに必要な知識が含まれているかを検証します。検証は、クエリ間のホモロジー関係に基づいており、ホモログなクエリ再同定タスクとして定式化されます。すなわち、過去に観測されたクエリが、流入してくるクエリのホモログな再遭遇として同定された場合、そのドラフトは受容可能とみなされ、システムは遅い全データベースの完全な取得をスキップできます。実世界の人気パターンにおいてホモログなクエリが広く存在することにより、HaSは大きな効率改善を達成します。大規模な実験により、HaSが、精度のわずかな低下(1〜2%)で、データセット間において取得レイテンシを23.74%および36.99%削減することが示されます。プラグアンドプレイの解決策として、HaSはまた、現代のエージェント型RAGパイプラインにおける複雑なマルチホップクエリも大幅に高速化します。ソースコードは以下で入手可能です: https://github.com/ErrEqualsNil/HaS。