セル単位の外れ値(Cellwise Outliers)

arXiv stat.ML / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、従来の「事例(ケース)単位の外れ値/異常」から、「データ行列またはテンソル中の個々の要素(セル)が逸脱する」セル単位の外れ値へと焦点が移っていることを示しています。
  • 高次元では、比較的少ない割合の外れセルでも多数のケースが汚染され得るため、従来の事例単位の検出手法がうまく機能しないと説明しています。
  • セル単位の外れ値の検出やセル単位で頑健な推定を行うには、事例単位の枠組みとは異なる発想・手法が必要であり、場合によっては直感的な共変性(エクイバリアンス)を手放す必要があると述べています。
  • 本稿は、位置・共分散の推定、回帰、主成分分析(PCA)、テンソルデータ向け手法などに関する近年の進展を概観し、高次元データではセル単位アプローチが優勢になり、欠損値にも典型的に対応できる点を強調しています。

Abstract

統計学および機械学習において、`outlier'(外れ値)および`anomaly'(異常)という用語の従来の意味は、データの大部分とは異なる振る舞いをする、データセット中の1つのケース(観測)である。これにより、それが異なる母集団に属しているのではないかという疑念が生じる。しかし今日では、いわゆるcellwise outliers(セルごとの外れ値)に注目が集まっている。これはデータ行列(またはデータテンソル)のどこかにある個々の値である。次元に依存して、比較的小さな割合の外れたセルでさえも、半数を超えるケースを汚染してしまうことがあり、これは既存のケースごとの手法にとって問題となる。セルごとの外れ値を検出すること、ならびにセルごとに頑健な手法を構成することには、ケースごとの設定とはかなり異なる技術が必要であることがわかる。例えば、いくつかの直感的な同変性(equivariance)の性質を手放さなければならない。問題は難しいが、この10年ほどの間に大きな進展が見られた。高次元データでは、セルごとのアプローチが支配的になりつつあり、一般に欠損値にも対応できる。我々は、位置(location)および共分散行列の推定、回帰手法、主成分分析、テンソルデータに対する手法、ならびにその他さまざまな状況における発展を概観する。