ラベル付きTrustSetガイド：強化学習によるバッチ能動学習

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来のバッチ能動学習における限界に対処するため、TrustSetを提案する。TrustSetは、ラベル付きデータから情報量の大きいサンプルを選択しつつ、クラス分布のバランスを強制してロングテール効果を低減する。
TrustSetは、CoreSetのような既存手法よりも改善されており、Mahalanobis距離のような未ラベルデータ分布指標に主に依存するのではなく、ラベル付きフィードバックとモデル指向の基準（冗長性の剪定）を用いる。
TrustSetのラベル付きデータで得られた効果を未ラベルのプールにも拡張するため、著者らはRL（強化学習）に基づくサンプリング方策を導入し、未ラベルデータから高品質なTrustSet候補を選ぶことを近似する。
組み合わせた手法であるBRAL-T（TrustSetを用いたバッチ強化能動学習）は、10の画像分類ベンチマークと2つのアクティブなファインチューニング課題において、最先端の性能に到達することが報告されている。
全体として、本研究は、ラベル付き情報と強化学習に駆動された選択の両方を活用することで、大規模な深層学習モデルの学習におけるラベル付けコストを削減し、データ効率を改善することを目指している。

Abstract

バッチ能動学習（BAL）は、大規模な深層学習モデルを訓練する際のラベリングコストを削減し、データ効率を向上させるための重要な手法である。従来のBAL手法は、注釈対象のデータを選択する際に不確実性と多様性のバランスを取るために、マハラノビス距離のような指標に依存することが多い。しかし、これらの手法は主として未ラベルデータの分布に注目しており、ラベル付きデータからのフィードバックやモデルの性能を活用できていない。これらの制約に対処するために、本稿ではTrustSetという新しいアプローチを提案する。TrustSetは、クラス分布のバランスを確保してロングテール問題を緩和しつつ、ラベル付きデータセットから最も情報量の大きいデータを選択する。全体のデータ分布の維持に焦点を当てるCoreSetとは異なり、TrustSetは冗長なデータを削減（プルーニング）し、ラベル情報を用いて選択プロセスを洗練することで、モデルの性能を最適化する。TrustSetの利点を未ラベルのプールにも拡張するために、強化学習（RL）に基づくサンプリング方策を提案し、未ラベルデータから高品質なTrustSet候補を選択することを近似する。TrustSetとRLを組み合わせることで、Batch Reinforcement Active Learning with TrustSet（BRAL-T）という枠組みを導入する。BRAL-Tは、10の画像分類ベンチマークと2つのアクティブ・ファインチューニング課題において先進的な（state-of-the-art）結果を達成し、さまざまな領域における有効性と効率性を示す。