Abstract
情報平面(IP)解析は、入力・表現・ターゲット間の相互情報量(MI)を通じて、深層ニューラルネットワークの学習ダイナミクスを研究するために提案されてきました。しかし、その統計的妥当性は、高次元で決定論的な表現のサンプルからMIを推定することが難しいため、しばしば損なわれます。
本研究では、活性が離散的でありMIが有限となる二値ニューラルネットワーク(BNN)に対してIP解析を行います。プラグインエントロピー推定量の有限サンプル挙動を特徴付け、MI推定が信頼できるような、サンプルサイズNと表現の次元数Dに関する領域(レジーム)を特定します。これらの領域の外では、経験的MI推定が
\log_2 Nへと飽和することを示し、その結果IP軌跡は情報を持たないものになります。
信頼できる領域に焦点を絞り、遅い段階での圧縮フェーズの存在と、圧縮された表現と汎化性能の関係を調べるために、375個のBNNを学習させます。その結果、遅い段階での圧縮はしばしば観測される一方で、圧縮された潜在表現は改善された汎化性能と一貫して相関しないことが分かりました。代わりに、圧縮と汎化の関係は、課題、アーキテクチャ、正則化に強く依存します。