ロングテール問題を埋める:多段階パラフレーズ注入による頑健な検索拡張型関係補完

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、必要な情報が希少または疎にしか表れていない状況における関係補完(RC)を扱い、LLMがRAG(検索拡張生成)を用いても困難を抱えやすい点を指摘しています。- 提案手法RC-RAGは、関係のパラフレーズを複数段階で系統的に取り込むマルチステージのパラフレーズ誘導フレームワークであり、検索時には語彙カバレッジを拡張し、要約生成では関係を意識した要約を作り、生成時には推論をガイドします。- RC-RAGは、モデルのファインチューニングを不要にしつつロングテール環境で頑健性を高めるとしています。- 2つのベンチマークデータセットで5つのLLMを用いた実験では、複数のRAGベースラインに対して一貫した改善が示され、ロングテールでは最良のLLMで単体から+40.6 EM、強力なRAG基準に対してそれぞれ+16.0、+13.8 EMを上回ったと報告されています。- これらの改善を低い計算オーバーヘッドで実現したとされており、既存のRAGパイプラインに実運用しやすい可能性があります。

要旨: 大規模言語モデル(LLM)は、関係補完(RC)に苦戦しており、とりわけ、必要な情報が稀である、または疎にしか表現されていない場合に、検索拡張生成(RAG)の有無を問わず困難になります。これに対処するために、本研究では、新たな多段階のパラフレーズ誘導にもとづく関係補完フレームワークであるRC-RAGを提案します。RC-RAGは、複数の段階にわたって関係のパラフレーズを体系的に取り込みます。具体的には、RC-RAGは次の点を行います。(a) 関係のパラフレーズを検索に統合し、関係における語彙カバー範囲を拡張する、(b) パラフレーズを用いて関係を意識した要約を生成する、そして(c) 生成の際にパラフレーズを活用して、関係補完のための推論を導く。重要なのは、提案手法がモデルの微調整を一切必要としないことです。2つのベンチマークデータセットに対して5つのLLMで行った実験では、RC-RAGが複数のRAGベースラインを一貫して上回ることが示されました。ロングテール設定では、RC-RAGで拡張した最良性能のLLMは、単独性能に比べてExact Match(EM)で40.6ポイント改善し、さらに2つの強力なRAGベースラインをそれぞれ16.0ポイントおよび13.8ポイントのEM差で上回ります。加えて、計算オーバーヘッドは低いまま維持されています。