強化学習によるブラックボックス検索のための文書最適化

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「ドキュメント拡張」を「文書最適化」として再定式化し、文書変換をオフラインで学習することで、クエリ時の計算量を増やさずに検索品質を向上させます。
  • GRPOを用いて言語モデルまたは視覚言語モデルを微調整し、報酬信号として対象リトリーバのランキング出力へのブラックボックスアクセスのみを活用します。
  • 本手法は、単一ベクトル、マルチベクトル、語彙ベースのリトリーバなど、多様なリトリーバタイプにまたがって動作するよう設計されており、特定のアーキテクチャに依存しません。
  • コード検索および視覚文書検索(VDR)に関する実験では一貫した検索改善が示されており、小型のリトリーバが十分に改善して、大型のリトリーバを上回るケースもあります。
  • リトリーバの重みが利用可能な場合、学習した文書最適化はリトリーバの微調整と同等、またはそれを補完する形で機能し、多くの設定で両アプローチを組み合わせたときに最良の結果が得られます。

概要: 文書拡張(Document expansion)は、検索品質を改善するための古典的な手法であり、計算をオフラインへ移すことでクエリ時の追加処理を回避できるため魅力的です。しかし、これを現代的なリトリーバ(retriever)に適用すると、性能が低下することが示されており、多くの場合、識別的な信号を覆い隠すノイズを導入します。私たちは文書拡張を文書最適化(document optimization)の問題として捉え直します。すなわち、言語モデル、または視覚言語モデルを微調整し、目標とするリトリーバのもとで期待されるクエリ分布によりよく整合する表現へ文書を変換できるようにします。ここでは、リトリーバのランキング改善を報酬として用い、GRPOを使います。この手法は、検索ランクへのブラックボックス的なアクセスのみを必要とし、単一ベクトル、複数ベクトル、そして語彙(lexical)リトリーバのいずれにも適用可能です。私たちは、コード検索および視覚文書検索(VDR)というタスクで提案手法を評価します。その結果、学習された文書変換は検索上の利得をもたらし、多くの設定において、より小さくより効率的なリトリーバが大きなリトリーバを上回ることが分かりました。たとえば、OpenAIのtext-embedding-3-smallモデルに文書最適化を適用すると、コードでのnDCG5が(58.7から66.8へ)改善され、VDRでも(53.3から57.6へ)改善します。さらに、6.5倍コストの高いOpenAI text-embedding-3-largeモデルをわずかに上回る場合もあり(コードで66.3、VDRで57.0)、良好な結果が得られます。リトリーバの重みが利用可能な場合、文書最適化はしばしば微調整(fine-tuning)と競合的であり、ほとんどの設定ではそれらの組み合わせが最も良い性能を示します。例えばJina-ColBERT-V2は、VDRで55.8から63.3へ、コード検索で48.6から61.8へと改善します。