クラスタリングとロジスティックモデルによるNon-SCAR下でのPU分類の提案

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、SCAR仮定が成り立たない状況でも機能するシンプルなクラスタ洗浄手法を用いたPU（Positive-Unlabeled）分類アプローチを提案している。
まず2-meansクラスタリングにより「洗浄ラベル」を生成し、その後、洗浄データに対してロジスティック回帰を行い、クラスタリングされた正例を追加の真の正例観測と合わせて正ラベルとして扱う。
残りのサンプルは負ラベルとして割り当てられ、洗浄後のPU構造から学習できるようになる。
提案手法は、機械学習リポジトリの実データセット11個と合成データで評価され、SCAR違反下でもクラスタリング手順が有効であることを示している。
さらにロバスト性も検討されており、LassoJoint法はSCAR条件の摂動に対して中程度の頑健性を持つことが示されている。

Abstract

本研究は、SCAR条件が満たされない場合でもPU分類を解決でき、かつ計算的に単純なクラスタークリーニングアルゴリズムを調査することを目的とする。本研究の第二の目的は、SCAR条件への摂動に対するLassoJoint手法の頑健性を明らかにすることである。アルゴリズムの最初のステップでは、2-meansクラスタリングからクリーニングラベルを取得する。続いて、クリーニングされたデータに対してロジスティック回帰を行い、追加の真の陽性観測を伴うクリーニングアルゴリズムによる正のラベルを割り当てる。残りの観測には負のラベルを割り当てる。提案アルゴリズムは、機械学習リポジトリからの11の実データセットと合成データセットを用いて比較することで評価される。本研究によって得られた知見は、SCAR条件が破られている状況においてクラスタリングアルゴリズムの有効性を示すとともに、この文脈におけるLassoJointアルゴリズムの中程度の頑健性をさらに裏付けるものである。