Abstract
多様性を考慮した検索は、Retrieval-Augmented Generation(RAG)にとって不可欠ですが、既存手法には理論的保証がなく、取得するパッセージ数k が増えるとスケーラビリティの問題に直面します。本研究では、多様性検索を、台数制約付き二次二値計画(CCBQP)として定式化することで、妥当性のある枠組みを提案します。解釈可能なトレードオフ用パラメータにより、関連性と意味的多様性の両者を明示的に釣り合わせます。組合せ最適化における近年の進展に着想を得て、非凸なタイト連続緩和と、ランドスケープ解析および収束保証を伴う Frank--Wolfe に基づくアルゴリズムを開発します。大規模な実験により、提案手法は関連性—多様性のパレートフロンティア上で一貫してベースラインを上回り、さらに大幅な高速化も達成することを示します。


