UnIte：不確実性に基づく反復的ドキュメントサンプリングによる情報検索のドメイン適応

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、不確実性ベースの反復的ドキュメントサンプリング手法UnIteを提案し、ニューラル情報検索モデルの教師なしドメイン適応を改善する。
UnIteは疑似クエリ生成のために、高いアレアトリック不確実性を持つ文書をフィルタリングし、高いエピステミック不確実性を持つ文書を優先することで、現時点のモデルの学習効率を最大化する。
既存手法が多様性の最適化に偏っていたのに対し、UnIteはモデルの不確実性をより適切に捉えて適応用の文書選択を行う。
BEIRでの広範な実験では、小型・大型モデルの双方で、平均約4kの学習サンプル数という少なさながら、nDCG@10が+2.45および+3.49と大きく向上したことを示している。

Abstract

教師なしドメイン適応は、ターゲットドメインの文書に対して疑似クエリを生成することで、未見のドメインへニューラルリトリーバを一般化します。この適応の品質と効率は、疑似クエリ生成のためにどの文書が選択されるかに決定的に依存します。既存の文書サンプリング手法は多様性に注目していますが、モデルの不確実性を捉えられていません。これに対して、我々はこれらの制限に対処する **Un**certainty-based **Ite**rative Document Sampling（UnIte）を提案します。これは、(1) アレアトリック不確実性が高い文書をフィルタリングし、(2) エピステミック不確実性が高い文書を優先することで、現在のモデルの学習有用性を最大化します。小規模および大規模モデルを用いた大規模コーパスBEIRに対して広範な実験を行い、学習サンプルサイズを平均4kに抑えた場合でも、それぞれ+2.45および+3.49の nDCG@10 の大きな改善が得られることを示しました。

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

note

Takahiro.K ｜元SEコンサルのAI対話ログ

note

AIエージェントは、人間のように組織を運営することができるか

note

Geminiは現代の駆け込み寺 !? 悩み相談室!?

note

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

note

UnIte：不確実性に基づく反復的ドキュメントサンプリングによる情報検索のドメイン適応

要点

Abstract

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜ 元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の 駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Takahiro.K ｜元SEコンサルのAI対話ログ

Geminiは現代の駆け込み寺 !? 悩み相談室!?