表形式ファンデーションモデルに対するアクティブ・インコンテキスト学習

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、表形式のコールドスタート設定では、ラベル付きサンプルがごく少数の段階では不確実性推定が信頼できなくなるため、従来のアクティブ・ラーニングがうまく機能しにくいと主張する。
学習済みのモデルの重み更新を行わずに、インコンテキスト内のラベル付きコンテキストを最適化できる表形式ファンデーションモデル（例：TabPFN）を活用した、Tabular Active In-Context Learning（Tab-AICL）を提案する。
著者らは、新しいラベルを選択するための4つの獲得（acquisition）戦略を形式化する：不確実性（TabPFN-Margin）、多様性（TabPFN-Coreset）、不確実性と多様性のハイブリッド（TabPFN-Hybrid）、およびスケーラブルな2段階のショートリスト作成→選択アプローチ（TabPFN-Proxy-Hybrid）。
20の分類ベンチマークに関する実験により、Tab-AICLは再学習する勾配ブースティングのベースライン（CatBoost/XGBoostのマージン）に比べてコールドスタート時のサンプル効率を改善し、最大で100ラベル付きサンプルまでの範囲で、正規化AULC（normalized AULC）によって測定される改善を達成する。
本研究は、表形式ファンデーションモデルのキャリブレーションと、コンテキスト最適化に基づく獲得戦略を組み合わせることが、実務での低データ領域におけるラベリングコスト削減につながる有望な道筋であると位置づける。

Abstract

アクティブ・ラーニング（AL）は情報量の多いサンプルを問い合わせることでラベリングコストを削減しますが、表形式の設定では、モデルがごく少数のラベルで学習されているとき不確実性推定が信頼できないため、コールドスタート時の利得がしばしば限定されます。TabPFN のような表形式の基盤モデルは、インコンテキスト学習（ICL）によって、校正された確率予測を提供します。つまり、タスク固有の重み更新を行わず、反復的に最適化する対象をパラメータではなくラベル付きコンテキストにすることで、AL の枠組みを可能にします。本稿では、Tabular Active In-Context Learning（Tab-AICL）を形式化し、それを 4 つの獲得（acquisition）規則で具現化します。すなわち、不確実性（TabPFN-Margin）、多様性（TabPFN-Coreset）、不確実性と多様性のハイブリッド（TabPFN-Hybrid）、そして TabPFN に基づく選択の前に軽量な線形プロキシで候補を絞り込むスケーラブルな二段階手法（TabPFN-Proxy-Hybrid）です。20 の分類ベンチマークにおいて、Tab-AICL は、再学習した勾配ブースティングのベースライン（CatBoost-Margin と XGBoost-Margin）に対して、最大 100 ラベルの範囲で正規化 AULC により測定したコールドスタート時のサンプル効率を改善します。