[D] 異常検知において、これは教師なし学習または半教師あり学習と見なされるのか？

Reddit r/MachineLearning / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この設定では、良性／正常データのみを用いて異常検知器を学習し、学習中にクラスラベルを使わずに正常な振る舞いをモデル化することに焦点を当てる（しばしばワンクラスあるいは教師なし表現学習として説明される）。
評価時には、決定しきい値をラベル付きの検証データで選び、F1スコアを最大化する。これにより、表現の学習ではなくキャリブレーションのみに限定して教師ありの要素が導入される。
根本的な曖昧さは、学習でラベルを使わないにもかかわらず、ラベルによるしきい値調整によって全体のアプローチが半教師あり学習として再分類されるべきかどうかにある。
この質問は、論文中で用いるべき適切な用語を、過度な主張を避けつつ定めることを求めており、教師なし（またはワンクラス）の学習と、教師ありのしきい値キャリブレーションとの慎重な区別を示唆している。
実務的には、表現学習がラベルフリーのままであるなら、手法全体を半教師あり学習だと主張するのではなく、「しきい値キャリブレーションのためにラベル付き検証を用いた教師なし／ワンクラス異常検知」と明示的に記述するのがよい。

こんにちは。私は異常検知のセットアップに取り組んでいるのですが、学習の観点からそれを正しくどう説明すればよいのか、少し自信がありません。

モデルは学習時にラベルを使わず、データは1クラス分（正常/良性）のみで学習されます。言い換えると、学習フェーズはクラス同士の区別ではなく、正常な振る舞いのモデル化のみに基づいています。

評価時には、検証セット上で、F1スコアを最大化する値を選ぶことで、意思決定の閾値を設定します。

つまり、表現学習そのものは教師なし（あるいは一クラス）ですが、最終的な決定境界はラベル付きの検証データを用いて選ばれます。

同様のセットアップに対して、異なる用語が使われているのを見かけました。ある情報源ではこれをセミスーパーバイズドと呼んでいますが、別の情報源では、閾値のキャリブレーションを伴う教師なし異常検知として説明しています。

過剰な主張をせずに、この状況を論文では最も正確にどのように記述すべきでしょうか？