EMA はそれだけではない:反復文脈における構造とコンテンツの境界をマッピングする

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、指数移動平均(EMA)トレースを制御されたプローブとして用い、固定係数の反復文脈が何を表現できるのか、そして本質的に何を表現できないのかを特定する。
  • EMAトレースは時間的な構造を効果的に符号化することが示されており、ヘブ則の多時尺度アプローチは、ラベルなしで文法的役割付与において教師ありの BiGRU の 96% に到達し、さらに構造依存の役割ではそれを上回る。
  • 本研究では、EMAトレースがトークン同一性を消去することが分かり、EMA文脈のみに依存する 130M パラメータの言語モデルは C4 のパープレキシティ 260(GPT-2 の約 8 倍)を達成している。これは、コンテンツ保持に関する大きな限界を示唆する。
  • 予測器のアブレーション(線形予測器を完全な softmax 注意に置き換える)では損失が同一になり、性能差が特定的に、トレースによって捨てられた情報にのみ局在することが示される。
  • 著者らは、EMAトレースがデータに依存しない、可逆ではない圧縮(ロッシーな圧縮)を行うと主張している。データ処理不等式により、捨てられた情報はどの下流の予測器も回復できないため、固定的な蓄積による不可逆な希釈を克服できるのは、入力に依存して学習される選択のみである、ということになる。

Abstract

効率の良いシーケンスモデルは、単純な時間平均に比べて正確に何を得るのでしょうか?本研究では、指数移動平均(EMA)トレースを、最も単純な再帰的コンテキスト(ゲーティングなし、内容に基づく検索なし)として用い、固定係数の蓄積が表現できるもの/できないものの境界を対応付けるための制御されたプローブとします。EMAトレースは時間構造をエンコードします。多時尺度トレースを備えたヘブ型アーキテクチャは、ラベルなしで文法的役割付与において教師ありBiGRUの96%を達成し、構造依存の役割に関しては教師ありモデルを上回ります。EMAトレースはトークンの同一性を破壊します。EMAコンテキストのみを用いる1.3億パラメータの言語モデルはC4のパープレキシティ260(GPT-2の8倍)に到達し、予測子のアブレーション(線形予測子を完全なソフトマックス注意に置き換える)では同一の損失が得られます。これにより、そのギャップ全体がトレースにあることが局所化されます。トレースは、損失のある、データ非依存の圧縮を適用します。データ処理不等式により、廃棄された情報は下流のどの予測器も復元できません。時間方向であれ深さ方向であれ、固定係数の蓄積は不可逆な情報の希釈に悩まされ、学習された入力依存の選択だけがそれを解決できます。