バイナリニューラルネットワークに関する情報プレーン分析

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、情報プレーン(IP)分析をバイナリニューラルネットワーク(BNN)に適用し、高次元の決定論的表現からでも相互情報量(MI)を信頼できる形で推定できるかに焦点を当てている。
  • その際、プラグイン・エントロピー推定器の有限サンプル挙動を解析し、サンプル数(N)と表現次元(D)の条件として、MI推定が妥当になるレジームを特定している。
  • 信頼できるレジーム外では、経験的MI推定が \(\log_2 N\) に飽和し、学習ダイナミクスを解釈するためのIP軌跡が情報を失うことを示している。
  • さらに、375本のBNNを学習させてレイトステージ圧縮フェーズの有無を調べ、圧縮表現と汎化性能の関係を検証している。
  • 結果として、レイトステージ圧縮は頻繁に観測される一方で、圧縮された潜在表現が一貫して汎化を改善するとは限らず、その関係はタスク、アーキテクチャ、正則化に強く依存することが分かった。

Abstract

情報平面(IP)解析は、入力・表現・ターゲット間の相互情報量(MI)を通じて、深層ニューラルネットワークの学習ダイナミクスを研究するために提案されてきました。しかし、その統計的妥当性は、高次元で決定論的な表現のサンプルからMIを推定することが難しいため、しばしば損なわれます。 本研究では、活性が離散的でありMIが有限となる二値ニューラルネットワーク(BNN)に対してIP解析を行います。プラグインエントロピー推定量の有限サンプル挙動を特徴付け、MI推定が信頼できるような、サンプルサイズNと表現の次元数Dに関する領域(レジーム)を特定します。これらの領域の外では、経験的MI推定が \log_2 Nへと飽和することを示し、その結果IP軌跡は情報を持たないものになります。 信頼できる領域に焦点を絞り、遅い段階での圧縮フェーズの存在と、圧縮された表現と汎化性能の関係を調べるために、375個のBNNを学習させます。その結果、遅い段階での圧縮はしばしば観測される一方で、圧縮された潜在表現は改善された汎化性能と一貫して相関しないことが分かりました。代わりに、圧縮と汎化の関係は、課題、アーキテクチャ、正則化に強く依存します。