要約: 大規模事前学習済み言語モデル(LLM)の広範な普及に伴い、医療や生物医学などの分野でその性能をベンチマークするためのタスク特異的テストセットへの高い需要が存在します。しかし、新しいベンチマークを開発する際にテストサンプルへラベルを付けるコストは重大な課題となり、特に専門のアノテータが必要とされる場合には顕著です。能動的サンプル選択の既存のフレームワークは、選択肢のダイナミクスがモデルの意思決定境界に影響を与える可能性がある生成型質問応答タスクに対して、限定的なサポートしか提供していません。本論文では、サンプル選択プロセスを知らせる代理としてLLMsを活用した不確実性を意識した取得フレームワーク、Generative Active Testing(GAT)を提案します。新規のStatement Adaptation Moduleを用いて、生成タスクを疑似分類形式へと変換し、未ラベル候補全体にわたるサンプルレベルの不確実性を捉えることを可能にします。私たちのゼロショット取得関数は、従来のサンプリングベースラインと比較して推定誤差を約40%低減し、コスト効率の高いモデルベンチマークのためのスケーラブルなソリューションを提供します。
Generative Active Testing(GAT)は、LLMsを代理モデルとして用い、不確実性を考慮した獲得フレームワークを導入し、生成型QAタスクの評価のためのサンプル選択をガイドします。
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Generative Active Testing(GAT)は、LLMsを代理モデルとして用い、不確実性を考慮した獲得フレームワークを導入し、生成型QAタスクの評価のためのサンプル選択をガイドします。
- Statement Adaptation Module(ステートメント適応モジュール)は、生成タスクを擬似分類形式へ変換し、未ラベル候補全体にわたるサンプルレベルの不確実性を捉えます。
- ゼロショット獲得関数は、従来のサンプリングベースラインと比較して推定誤差を約40%削減し、医療や生物医学などの分野でコスト効率の高いベンチマーキングを実現します。
- このアプローチは、LLM評価の新しいベンチマークを開発する際のコストとスケーラビリティの課題に対処し、より効率的なタスク特異的テストを可能にします。


