順序こそがメッセージである

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

モジュラ算術（p=9973）に関する制御されたarXivの研究では、学習用サンプルの「順序だけ」を変更し、他はすべて一定に保つことで、訓練時間の範囲内にテスト精度を約99.5%まで引き上げられることが示されています。さらに、学習セットが入力空間のわずか0.3%しかカバーしていない場合でも同様です。
本論文は、高い精度を素早く達成する2つの固定的な順序付け戦略を、5,000エポック後も精度が約0.30%付近にとどまるIID（独立同分布）による順序付けベースラインと対比し、加えて敵対的な順序付けでは学習が完全に抑制され得る点を指摘しています。
学習されたモデルが一貫してフーリエ表現を構築し、その基本周波数が、順序構造のフーリエ双対に対応することが報告されています。これは、順序それ自体が、単一の例の中には含まれていない情報を復元可能な形で運んでいることを示唆します。
初期化や学習セット構成が変わっても、基本周波数のふるまいはシード間で一般化されます。これは、暗記（memorization）というより、順序が誘導する帰納バイアス（inductive bias）を示すものだと考えられます。
著者らは、学習効率に対する含意や、「grokking（理解の獲得）」の再解釈について議論する一方で、訓練と効果の「チャネル」が、明示的な内容ではなく構造に情報を埋め込むことで、コンテンツレベルの監査を回避してしまう安全上のリスクがあると警告しています。

概要: モジュラ算術（ $p = 9973$ ）に関する制御された実験において、他はすべて一定に保ち、例の並べ替え順序のみを変えることで、固定順序の2つの戦略はいずれも、入力空間の0.3 extbackslash%を含む訓練集合から出発した場合に、学習エポック487および659の時点でそれぞれ99.5 extbackslash%のテスト精度を達成した。これは、IID順序の下でこの課題に対して確立されたサンプル複雑度の下限を大きく下回っている。IIDのベースラインは、同一データから開始して5{,}000エポック後に0.30 extbackslash%を達成する。敵対的に構造化された並べ替え順序では学習が完全に抑制される。一般化モデルは、順序構造のフーリエ対（フーリエ双対）に相当する基礎周波数を持つフーリエ表現を確実に構成し、個々の訓練例には存在しない情報を符号化する。さらに、初期化や訓練セットの構成に関わらず、検証したすべてのシードで同一の基礎周波数が現れる。訓練効率への含意、grokkingの再解釈、およびコンテンツレベルの監査をすり抜けるチャネルがもたらす安全上のリスクについて議論する。