EMA はそれだけではない:反復文脈における構造とコンテンツの境界をマッピングする
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、指数移動平均(EMA)トレースを制御されたプローブとして用い、固定係数の反復文脈が何を表現できるのか、そして本質的に何を表現できないのかを特定する。
- EMAトレースは時間的な構造を効果的に符号化することが示されており、ヘブ則の多時尺度アプローチは、ラベルなしで文法的役割付与において教師ありの BiGRU の 96% に到達し、さらに構造依存の役割ではそれを上回る。
- 本研究では、EMAトレースがトークン同一性を消去することが分かり、EMA文脈のみに依存する 130M パラメータの言語モデルは C4 のパープレキシティ 260(GPT-2 の約 8 倍)を達成している。これは、コンテンツ保持に関する大きな限界を示唆する。
- 予測器のアブレーション(線形予測器を完全な softmax 注意に置き換える)では損失が同一になり、性能差が特定的に、トレースによって捨てられた情報にのみ局在することが示される。
- 著者らは、EMAトレースがデータに依存しない、可逆ではない圧縮(ロッシーな圧縮)を行うと主張している。データ処理不等式により、捨てられた情報はどの下流の予測器も回復できないため、固定的な蓄積による不可逆な希釈を克服できるのは、入力に依存して学習される選択のみである、ということになる。




