要旨: COVID-19の科学文献に対するハイブリッド検索システムを提示します。TREC-COVIDベンチマークで評価しました(171,332本の論文、50件の専門家クエリ)。本システムは、疎(SPLADE)、密(BGE)、ランクレベル融合(RRF)、および射影ベースのベクトル融合(B5)アプローチにまたがる6つの検索構成を実装しています。RRF融合は最良の関連性を達成します(nDCG@10 = 0.828)。密のみ(dense-only)より6.1%優れ、疎のみ(sparse-only)より14.9%優れています。射影融合の変種は、専門家クエリでnDCG@10 = 0.678に到達しつつ、33%高速(847 ms 対 1271 ms)であり、さらにRRFよりILD@10が2.2倍高い結果を生成します。専門家、機械生成、そして3種類の言い換えスタイルを含む計400クエリにわたる評価では、B5はキーワードが多い言い換えに対して最大の相対的向上を示します(+8.8%)。ただし、絶対的なnDCG@10においてはRRFが引き続き最良です。専門家クエリでは、MMRによる再ランキングにより、20.4-25.4%のnDCG@10コストで、リスト内多様性(intra-list diversity)が23.8-24.5%増加します。遅延(レイテンシ)を対象に評価した両方の融合パイプラインは、すべてのクエリ集合においてサブ2秒の目標を下回っています。システムは、Pineconeのサーバレス・インデックスを背後に持つStreamlitのWebアプリケーションとして展開されています。
COVID-19文献のハイブリッド検索:ランクフュージョンとプロジェクションフュージョンを多様性再ランキングで比較
arXiv cs.CL / 2026/4/16
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、TREC-COVIDベンチマーク上でCOVID-19文献を検索するためのハイブリッド検索システムを提案し、スパースモデル(SPLADE)、ダンスモデル(BGE)、および融合戦略(RRFとプロジェクションベースB5)を組み合わせることで、関連性と多様性の向上を図る。
- ランクレベル融合(RRF)は、nDCG@10が0.828で、ダンスのみ/スパースのみのベースラインを上回り、全体として最良の検索品質を示す。一方、プロジェクション融合(B5)は、関連性を一部犠牲にする代わりに、レイテンシと多様性指標をより強く改善する。
- B5のプロジェクション融合バリアントはnDCG@10が0.678であるが、RRFに対して33%高速(847 ms 対 1271 ms)で、ILD@10は2.2倍高い。特に、キーワード中心の言い換えにおいて相対的な改善が最大となる。
- MMRによる多様性志向の再ランキングを適用すると、リスト内の多様性が約24%(ILDの改善)向上するが、nDCG@10で有効性が約20〜25%低下し、関連性と多様性のトレードオフを定量化する。
- 本システムは、Pineconeのサーバレス・インデックスを用いたデプロイ済みのStreamlit Webアプリとして実装されており、複数のクエリ種別にわたってエンドツーエンドのレイテンシをサブ2秒の目標内に維持する。




