Align then Train: 効率的なリトリーバル・アダプタ学習
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複雑で命令文のようなクエリには強い推論が必要である一方、文書はより単純で静的であるという、密な検索(dense-retrieval)における一般的な不一致(ミスマッチ)を解決するための効率的リトリーバル・アダプタ(Efficient Retrieval Adapter: ERA)を提案する。
- ERAは、大規模な埋め込み(embedding)モデルの高コストな微調整を避けるために、リトリーバル・アダプタを2段階で学習する。すなわち、まず大きなクエリ埋め込み器と軽量な文書埋め込み器の間で自己教師ありによるアラインメントを行い、次に限られたラベル付きデータを用いた教師ありの適応(adaptation)を行う。
- この方法は、異なる埋め込みモデル間の表現ギャップ(representation gap)と、複雑なクエリと単純な文書の間にある意味ギャップ(semantic gap)の双方を、コーパスの再インデックス(re-indexing)を必要とせずに埋める。
- MAIRベンチマーク(6ドメインにまたがる126の検索タスク)での実験では、ERAが低ラベル状況で検索性能を向上させ、より大きなラベル付きデータに依存する手法を上回ることもあることが示される。
- ERAはさらに、強力なクエリ埋め込み器と、より弱い文書埋め込み器をドメイン横断で効果的に組み合わせられることも実証しており、検索システム設計における実用的な効率向上が期待できることを示唆している。




