アブストラクト: 教師あり学習を2段階の手続きに分解できる方法を示します。すなわち、(1) すべてのモデルパラメータを教師なしの方法で選択し、(2) パラメータ値を変更することなく出力 y をモデルに追加します。これは、新しいモデル選択基準によって実現されます。この基準は、相互検証(cross-validation)とは対照的に、y にアクセスできない場合でも使用可能です。線形リッジ回帰について、提案手法の漸近的な外部(out-of-sample)リスクを、最適な漸近的リスクの範囲で上界づけます。また、線形およびカーネルリッジ回帰、スムージングスプライン、k近傍法、ランダムフォレスト、ニューラルネットワークのバージョンについて、y にアクセスせずに学習したものが、標準的な y ベースの対応物と同様に機能することを示します。したがって、私たちの結果は、教師あり学習と教師なし学習の違いが、見かけほど根本的なものではないことを示唆しています。
教師あり学習は本当に教師なし学習とそれほど違うのか?
arXiv stat.ML / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教師あり学習は2段階のプロセスとして言い換えられると主張する。すなわち、まず非教師ありの基準によってモデルのパラメータを選び、次に学習済みのパラメータを変えずにラベル \(y\) を出力に組み込む。
- 交差検証とは異なり、ラベル \(y\) が利用できない場合でも使用できる新しいモデル選択基準を導入する。
- 線形リッジ回帰について、著者らは最適な漸近的アウト・オブ・サンプルリスクに対する、漸近的アウト・オブ・サンプルリスクの上界(バウンド)を導出する。
- 実験と分析により、線形およびカーネルリッジ回帰、スムージングスプライン、k近傍法(k-NN)、ランダムフォレスト、ニューラルネットワークといった複数の手法で、\(y\) へのアクセスなしに学習しても、標準的な教師あり手法に匹敵する性能が達成できることが示唆される。
- 全体として、これらの結果は、教師あり学習と教師なし学習の間にある概念的なギャップは、一般に考えられているほど本質的に大きくない可能性を示している。