データ品質のスペクトル的シグネチャ：ニューラルネットワークにおけるラベルノイズ診断としての固有値テール指数

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本研究では、ニューラルネットワークの重み行列のスペクトル特性がテスト精度を予測できるかを検証し、ボトルネック層における固有値テール指数（テールパラメータ α）が、制御されたラベルノイズの変化下で精度を強く追跡することを示す（leave-one-out R² = 0.984）。一方で、フロベニウスノルムのような従来指標は LOO R² = 0.149 と大きく劣る。
この予測関係は、支配的要因がラベル破損（corruption）である場合に、3つのアーキテクチャ（MLP、CNN、ResNet-18）と2つのデータセット（MNIST、CIFAR-10）にまたがって一般化すると報告されている。
ハイパーパラメータを変化させる一方でデータ品質を固定すると、スペクトル指標（テール α を含む）と従来指標のいずれも精度の弱い予測子にとどまり（R² < 0.25）、スペクトルに基づく単純なベースラインがそれらをわずかに上回る。
そのため著者らは、テール指数を普遍的な汎化予測因子というよりも、データ品質の診断指標として位置付けている。具体的には、ラベルノイズや学習データセットの劣化を検出するための指標である。
合成ノイズで学習したキャリブレーション済み検出器は、CIFAR-10Nにおける実際のアノテーション誤りを特定できるとされ（3%の誤りに対して9%のノイズを検出）、その効果を情報処理ボトルネック層およびBBP（Baik–Ben Arous–Péché）相転移の概念に結び付けている。一方で、固有値レベル間隔比 <r> はWishartのユニバーサリティのため情報を持たないことが分かった。

Black Hat Asia

AI Business

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

メモリ帯域49倍差、ローカルLLMの物理的限界

Qiita

ロジスティック回帰で与信審査AIを作ってみよう

Qiita

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

データ品質のスペクトル的シグネチャ：ニューラルネットワークにおけるラベルノイズ診断としての固有値テール指数

要点

関連記事

Black Hat Asia

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

メモリ帯域49倍差、ローカルLLMの物理的限界

ロジスティック回帰で与信審査AIを作ってみよう

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer