学習とは忘却である:LLM学習をロッシー圧縮として捉える

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルをロッシー(損失のある)圧縮として捉えることを提案する。すなわち、学習が進むにつれて、モデルは自らの目的に関連する学習データの情報のみを保持する。
  • 学習(事前学習)中に獲得される表現は、情報理論的な観点から解釈できると主張しており、次トークン(次系列)予測における圧縮のための情報ボトルネック(Information Bottleneck)境界に近づく結果を示す。
  • 複数のオープンウェイトLLMに対する実験では、異なるモデルファミリが知識を異なる方法で圧縮することが観察される。これは、データや学習レシピの違いを反映している可能性が高い。
  • 著者らは、モデルの圧縮度/最適性の程度は、捉えられた情報量と相関し、多数のベンチマークにおける下流タスクの性能を予測できると主張している。さらに、表現(リプレゼンテーション)の構造と実務的な成果を結び付ける。
  • 本研究は、LLMがどのように学習するのかを理解し、モデル性能に関する実行可能な洞察を導くために、大規模に利用できることを意図した統一的な情報理論的枠組みを提供する。

要旨: 大規模言語モデル(LLM)の普及が進んでいるにもかかわらず、それらの表現空間がどのように構造化されているかについての理解はまだ限られています。これは、彼らが何をどのように学ぶのか、またそれらを人間の学習とどのように関連づけられるのかを解釈する能力を制限しています。本研究では、LLMは損失のある圧縮(lossy compression)の一例として捉えるのが最も適切だと主張します。すなわち、過度な学習を通じて、目的(あるいは目的群)に関連する訓練データ内の情報だけを保持することで学習するのです。次系列予測に対して最適に圧縮されたモデルにおける事前学習の結果を示し、その圧縮について情報ボトルネック(Information Bottleneck)境界に近づくことを示します。オープンウェイトのモデル群の中でも、各モデルは異なる方法で圧縮しており、おそらく使用されたデータや学習レシピの違いによります。しかし、異なる系統のLLMにまたがっても、モデルの圧縮の最適性、およびそこに含まれる情報は、多様なベンチマークにおける下流(後続)性能を予測することができます。これにより、表現構造を、モデル性能に関する実行可能な洞察へ直接つなげることが可能になります。一般の場合、本研究で提示する内容は、これらのモデルがどのように学習するかを情報理論的に統一的に捉える枠組みを提供し、かつ大規模に展開可能です。