UnIte:不確実性に基づく反復的ドキュメントサンプリングによる情報検索のドメイン適応

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、不確実性ベースの反復的ドキュメントサンプリング手法UnIteを提案し、ニューラル情報検索モデルの教師なしドメイン適応を改善する。
  • UnIteは疑似クエリ生成のために、高いアレアトリック不確実性を持つ文書をフィルタリングし、高いエピステミック不確実性を持つ文書を優先することで、現時点のモデルの学習効率を最大化する。
  • 既存手法が多様性の最適化に偏っていたのに対し、UnIteはモデルの不確実性をより適切に捉えて適応用の文書選択を行う。
  • BEIRでの広範な実験では、小型・大型モデルの双方で、平均約4kの学習サンプル数という少なさながら、nDCG@10が+2.45および+3.49と大きく向上したことを示している。

Abstract

教師なしドメイン適応は、ターゲットドメインの文書に対して疑似クエリを生成することで、未見のドメインへニューラルリトリーバを一般化します。この適応の品質と効率は、疑似クエリ生成のためにどの文書が選択されるかに決定的に依存します。既存の文書サンプリング手法は多様性に注目していますが、モデルの不確実性を捉えられていません。これに対して、我々はこれらの制限に対処する **Un**certainty-based **Ite**rative Document Sampling(UnIte)を提案します。これは、(1) アレアトリック不確実性が高い文書をフィルタリングし、(2) エピステミック不確実性が高い文書を優先することで、現在のモデルの学習有用性を最大化します。小規模および大規模モデルを用いた大規模コーパスBEIRに対して広範な実験を行い、学習サンプルサイズを平均4kに抑えた場合でも、それぞれ+2.45および+3.49の nDCG@10 の大きな改善が得られることを示しました。