特徴量重み付けは回帰におけるプールベース逐次能動学習を改善する

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は回帰に対するプールベース逐次能動学習を研究し、重要度の高い特徴量を考慮せずにサンプル間距離を計算する先行手法の間隙を特定する。
5つの特徴量重み付け型能動学習バリアント（単一タスク3つと多タスク2つ）を提案する。少量のラベル付き集合から得たリッジ回帰係数を用いて、距離計算時の特徴量の重みを決定する。
実験の結果、提案する特徴量重み付け手法は実装が容易であり、単一タスクおよび多タスクの回帰の両方において、既存の4つの能動学習ベースラインの性能をほぼ常に改善することが示された。
著者らは、この戦略をストリームベースの能動学習へ拡張できる可能性があり、さらに分類アルゴリズムにも適応できる可能性があると述べている。
全体として、本研究は、代表性／多様性の計算を特徴量により意識的に行うことで、限られたラベル予算下でのサンプル選択の質を実務的に向上させる。

要旨: 回帰に対するプールベース逐次能動学習（ALR）は、大量の未ラベルサンプルからラベル付けするための少数のサンプルを逐次的に最適に選択し、与えられたラベリング予算のもとでより正確な回帰モデルを構築できるようにします。異なるサンプル間の距離を計算することで関わる代表性と多様性は、ALRにおける重要な考慮事項です。しかし、従来のALR手法は、サンプル間距離計算において異なる特徴の重要度を取り入れていないため、サブ最適なサンプル選択につながっていました。本論文では、3つの特徴量で重み付けされた単一タスクALR手法と、2つの特徴量で重み付けされたマルチタスクALR手法を提案します。ここでは、少量の事前にラベル付けされたサンプルから学習したリッジ回帰係数を用いて、サンプル間距離計算における対応する特徴量に重みを付けます。実験の結果、この実装が容易な改良は、単一タスクおよびマルチタスクの回帰問題の両方において、既存の4つのALR手法の性能をほとんど常に改善することが示されました。特徴量の重み付け戦略は、ストリームベースのALRや分類アルゴリズムにも容易に拡張できる可能性があります。