単純性バイアスに関する圧縮の観点

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、深層ニューラルネットワークにおける「単純性バイアス」（単純な関数を好む傾向）を、教師あり学習をMDL（Minimum Description Length：最小記述長）型の二部構成・損失無し圧縮として捉え直すことで分析する。
仮説（モデル）の複雑さに伴うコストと、データの符号化／予測に伴うコストの間の形式的なトレードオフを提案し、このトレードオフがニューラルネットワークの特徴選択をどのように駆動するかを説明する。
この枠組みは、学習された特徴が、訓練データが増えるにつれてどのように質的に遷移するかを予測し、データ符号化の節約が追加されたモデル複雑さを上回る場合に限って、単純な紛らわしいショートカットからより複雑な「実在の」特徴へと移行していくことを示す。
著者らは、データ量に関する異なる領域を特定する。すなわち、より多くのデータは自明なショートカットを排除することで頑健性を高めうる一方、別の領域ではデータを制限することが、複雑さに基づく正則化として働き、信頼できない手がかりを避けることができる。
著者らは、半合成ベンチマークにより理論を検証し、ニューラル特徴選択が最適な二部構成コンプレッサの解の軌跡に従うことを見出している。

Abstract

深層ニューラルネットワークは、単純な関数を複雑な関数よりも好むという、よく知られた「単純さバイアス（simplicity bias）」を示します。本研究では、最小記述長（Minimum Description Length）原理の観点からこの現象に新たな光を当て、教師あり学習を、最適な2部（two-part）の可逆圧縮として形式化します。我々の理論は、モデルの複雑さ（仮説を記述するコスト）と予測能力（データを記述するコスト）という本質的なトレードオフを通じて、単純さバイアスがニューラルネットワークにおける特徴選択をどのように支配するかを説明します。我々の枠組みは、利用可能な学習データの量が増えるにつれて、学習者が質的に異なる特徴へと移行することを予測します――すなわち、単純な紛らわしい近道（spurious shortcuts）から複雑な特徴へ移行するのは、データ符号化コストの削減が増大したモデル複雑さを正当化できる場合に限られます。その結果、データを増やすことが、自明な近道を排除することで頑健性を促進するという、異なるデータ領域（レジーム）を特定します。逆に、データを制限することが、複雑さに基づく正則化の一種として働き、信頼できない複雑な環境手がかりの学習を防ぎ得る領域も見出します。半合成ベンチマークにより、ニューラルネットワークの特徴選択が、最適な2部圧縮器（two-part compressors）と同じ解の軌跡に従うことを検証します。