データ品質のスペクトル的シグネチャ:ニューラルネットワークにおけるラベルノイズ診断としての固有値テール指数
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、ニューラルネットワークの重み行列のスペクトル特性がテスト精度を予測できるかを検証し、ボトルネック層における固有値テール指数(テールパラメータ α)が、制御されたラベルノイズの変化下で精度を強く追跡することを示す(leave-one-out R² = 0.984)。一方で、フロベニウスノルムのような従来指標は LOO R² = 0.149 と大きく劣る。
- この予測関係は、支配的要因がラベル破損(corruption)である場合に、3つのアーキテクチャ(MLP、CNN、ResNet-18)と2つのデータセット(MNIST、CIFAR-10)にまたがって一般化すると報告されている。
- ハイパーパラメータを変化させる一方でデータ品質を固定すると、スペクトル指標(テール α を含む)と従来指標のいずれも精度の弱い予測子にとどまり(R² < 0.25)、スペクトルに基づく単純なベースラインがそれらをわずかに上回る。
- そのため著者らは、テール指数を普遍的な汎化予測因子というよりも、データ品質の診断指標として位置付けている。具体的には、ラベルノイズや学習データセットの劣化を検出するための指標である。
- 合成ノイズで学習したキャリブレーション済み検出器は、CIFAR-10Nにおける実際のアノテーション誤りを特定できるとされ(3%の誤りに対して9%のノイズを検出)、その効果を情報処理ボトルネック層およびBBP(Baik–Ben Arous–Péché)相転移の概念に結び付けている。一方で、固有値レベル間隔比 <r> はWishartのユニバーサリティのため情報を持たないことが分かった。

