LLMベースのクエリ再構成に関する再現性研究

arXiv cs.CL / 2026/5/1

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本研究は、10のLLMベース・クエリ再構成手法を単一で厳密に統制された実験環境で体系的に評価し、本当に再現可能な効果を切り分けようとしています。
  • 再構成の有効性は検索(レトリーバル)のパラダイムに強く依存し、語彙ベース(lexical)の検索で見られた改善がニューラル検索(neural retrievers)へ一貫して転移するわけではないことが示されました。
  • 大規模なLLMを使っても、下流の検索性能が設定全体で一様に向上するとは限らないという結果です。
  • 実験は、2つのLLMファミリとパラメータ規模、3種類の検索方式(語彙ベース、学習済みスパース、密ベクトル)、TREC Deep LearningおよびBEIRの9つのベンチマークにまたがっています。
  • 透明性を高め、継続的な比較を可能にするため、著者らはQueryGymを通じてプロンプト、設定、評価スクリプト、実行ファイルを公開し、公開リーダーボードも提供しています。

Abstract

大規模言語モデル(LLM)は、情報検索におけるクエリの言い換えや拡張に現在広く用いられており、多くの研究で目覚ましい有効性の向上が報告されています。 しかし、これらの結果は通常、異種の実験条件のもとで得られているため、どの知見が再現可能で、どれが特定の実装上の選択に依存しているのかを評価することが困難です。本研究では、統一された厳密に制御された実験フレームワークのもとで、代表的なLLMベースのクエリ言い換え手法10件について、体系的な再現性および比較研究を提示します。 我々は、2つのアーキテクチャ系統のLLMファミリ、2つのパラメータ規模、3つの検索パラダイム(語彙ベース、学習済み疎ベクトル、密ベクトル)、およびTREC Deep LearningとBEIRにまたがる9つのベンチマークデータセットにわたって手法を評価します。 その結果、言い換えによる向上は検索パラダイムに強く依存すること、語彙ベースの検索で観測された改善が神経的(ニューラル)なリトリーバへ一貫して転移しないこと、またより大きなLLMが下流性能の向上を一様に(常に)もたらすわけではないことが示されます。 これらの知見は、先行研究で報告された向上の安定性と限界を明確化します。 隠れた仮定のない再現と継続的な比較を可能にするために、我々はすべてのプロンプト、設定、評価スクリプト、および実行(run)ファイルを、公開リーダーボードを備えたオープンソースの言い換えツールキットであるQueryGymを通じて公開します。\footnote{https://leaderboard.querygym.com}