深層ネットワークは単純なデータを好む

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

研究は、深層モデルが「単純（低複雑度）」なOODサンプルに対して「典型的である」ような推定密度をより高く与える現象（OOD anomaly）を、モデルと密度推定器を分離して一般化可能な形で解析する枠組みを提示した。
提案する密度推定器として、表現/出力に基づくJacobiansベース推定と、自己回帰的なself-estimatorsの2種類を導入し、iGPT・PixelCNN++・Glow・スコアベース拡散・DINOv2・I-JEPAなど幅広いモデルに同じ分析を適用できるようにした。
実験では、推定密度の大小が「低複雑度ほど高密度、高複雑度ほど低密度」という一貫した順序で現れ、テスト内でもCIFAR-10/SVHNのようなOOD組でも同様で、独立学習したモデル間でも高い再現性が確認された。
Spearman順位相関により、モデル間での一致だけでなく外部の複雑度指標との一致も示され、さらに最も低密度（最も複雑）なサンプルだけ、あるいは単一サンプルのみで学習してもなお「単純画像を高密度にランク付け」する傾向が残ると報告している。

Abstract

推定密度は、モデルの下でサンプルがどれほど典型的かを示すものとして解釈されることが多い。だが、あるデータセットで訓練された深層モデルは、教師データに含まれる（in-distribution）テストデータよりも、より単純な分布外（OOD）データに対して emph{より高い} 密度を割り当てることがある。我々はこの振る舞いを OOD 異常と呼ぶ。従来の研究の多くは、この現象を単一のアーキテクチャ、検出器、またはベンチマークの範囲内で調べており、暗黙にある種の標準的な（canonical）密度を仮定していた。そこで本研究では、訓練済みネットワークから、そこから得られる表現または出力に基づいて構築される密度推定器を切り離す。密度解析を幅広いモデルに適用できるようにするため、我々は2つの推定器、すなわちヤコビアンに基づく推定器と、自己回帰的な自己推定器を導入する。この観点を iGPT、PixelCNN++、Glow、スコアベースの拡散モデル、DINOv2、I-JEPA を含むさまざまなモデルに適用すると、OOD 異常を越えて現れる、同じように驚くべき一貫した規則性が見いだされる： \textbf{低い複雑性のサンプルほど高く推定された密度を受け取り、一方で高い複雑性のサンプルほど低く推定された密度を受け取る}。この順序づけはテストセット内だけでなく、CIFAR-10 と SVHN のような OOD ペア間でも見られ、独立に訓練されたモデル間でも非常に高い一貫性が保たれている。これらの順序づけを定量化するため、Spearman の順位相関を導入し、モデル間での一致だけでなく、外部の複雑性指標との一致についても驚くほどの整合が得られる。最も低い密度（最も複雑な）のサンプルだけで訓練した場合、あるいは \textbf{そのようなサンプルを1つだけ} 用いて訓練した場合でさえ、得られたモデルはより単純な画像をより高い密度としてなお順位づけする。これらの観察は、我々を元の OOD 異常を超えた、より一般的な結論へと導く：深層ネットワークは一貫して単純なデータを好む。我々の目的はこの問いを解決することではなく、より明確に定義し可視化することである。経験的な範囲を広げ、複数のアーキテクチャ、目的関数、そして密度推定器にまたがってそれが現れることを示す。