広告

[R] 3,000パラメータのモデルを長さ20のXOR系列で学習させたら、長さ1,000,000まで完全に外挿できました。なぜそれが、アーキテクチャ上の重要性につながると思うのか

Reddit r/MachineLearning / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、注意機構を用いない系列モデリング手法であるGeometric Flow Networks(GFN)を提案している。ここでは計算を幾何学的多様体上での粒子の流れとして捉え、入力は状態を置き換えるのではなく軌道を摂動させる。
  • 3,164パラメータのGeodesic State Space Model(G-SSM)が、長さL=20のときXORのパリティを累積的に学習し、200ステップ未満の学習でL=1,000,000へ100%の精度で外挿できると報告されている。これは統計的相関ではなく、構造的な不変量(円環状対称性)を学習する枠組みとして位置づけられている。
  • 同じ幾何学的パラダイムに基づくMulti-Needle-in-a-Haystackモデル(8,109パラメータ)は、K=2の針に対してL=32,000まで100%の精度かつ誤検出0%を維持し、K=3では決定論的で追跡可能な失敗挙動を示す。
  • Inertial State Network(ISN)の変種は、TinyShakespeareで文字レベルのパープレキシティ2.48を達成し、文脈長にかかわらず推論状態を一定サイズ(2.00 KB)に保てると報告されている。ただし、学習時の長さ(L=128)を超えると首尾一貫性が低下し、スケールに起因する制約が示唆される。
  • 記事では、KVキャッシュなしでO(1)の状態メモリを実現すること、そして決定論的な失敗モードと幾何学的な帰納バイアスを重視している。構造に根ざしたアーキテクチャが、相関ベースの手法に対する前進の道なのかどうか、議論を呼びかけている。

私は、注意(attention)ベースの系列モデリングに代わるものとして、幾何学的フローネットワーク(Geometric Flow Networks: GFN) と呼んでいる仕組みに取り組んでいます。中核となる考え方は、系列に対して統計的な相関を計算する代わりに、計算を入力が状態を置き換えるのではなく、軌跡を曲げる擾乱として働くような幾何学多様体(マニフォールド)を粒子が流れていくものとして扱うことです。これにより、次の3つの理論的性質が得られます。文脈長に依存しないO(1)の状態メモリ(KV-cacheなし)統計的パターンではなく構造的な不変量を学習することへの帰納バイアス、そして確率的というより幾何学的に追跡可能な決定論的な失敗モードです。

統計的にごまかせない結果:

測地線(ジオデシック)状態空間モデル (G-SSM)で、3,164パラメータ、長さL=20の累積XOR系列で学習させたところ、200ステップ未満の学習で、長さL=1,000,000の系列に対して100%の精度を達成しました。これは補間(interpolation)ではありません。モデルはパターンではなく、偶奇性保存(パリティ保存)のトーラス対称性を学習したのです。

同様に、8,109パラメータのマルチ・ニードル・イン・ア・ヘイスタック(Multi-Needle-in-a-Haystack)モデルでは、K=2本のニードルをL=64で学習した結果、L=32,000まで100%の精度と0%の誤検出率を維持します。K=3本のニードルでは2本目のニードルで発火します。学習した幾何学と整合する、決定論的で追跡可能な失敗であり、確率的なものではありません。なお、L=32,000を超えて形式的には検証していないものの、同じトーラス不変構造はL=1,000,000を超える理論的な外挿も示唆しています。

慣性状態ネットワーク(ISN)の実装(同じパラダイムの別アーキテクチャ)では、363kパラメータのTinyShakespeareに対してキャラクターレベルのパープレキシティが2.48となり、推論時の状態のメモリは文脈長に関係なく厳密に一定で2.00 KBです。正直な注意点として、ISNはL=128でのみ学習されているため、より長い系列ではコヒーレンスを失い、ダッシュをピリオドやカンマに置き換えてしまいます。これらは学習スケールに結びついた既知の制限であり、アーキテクチャそのものの問題ではありません。

すべての実験はGTX 1650(4GB VRAM)で実行しました。コードとモデルは公開されています。

私は次の3つの観点で議論したいです:

  1. 技術的な質問:構造的な不変量を学習するために幾何学的空間を変形する、物理的に根拠のあるアーキテクチャは前進の道なのか、それとも統計的な相関だけで本質的に十分なのか?(そして先回りして明白な比較について:G-SSMはMamba/S4や一次のSSMと異なり、G-SSMは第二次で、シンプレクティック積分(symplectic integration)を用い、エネルギー保存を行い、トポロジーが可変(トーラス、ユークリッドなど)で、低ランクのクリストッフェル行列を持ちます。単なる学習されたゲーティング関数ではありません。)
  2. cs.LGでのArXivの後押し。もし、その分野の研究者の誰かがZenodoの論文を、裏付けとして十分に厳密だと判断してくれているなら、その旨を教えてください。
  3. 研究への貢献や、アーキテクチャの実験に興味があるなら、すべてのコードはApache 2.0のライセンスです。お気軽に直接連絡してください。

論文:https://zenodo.org/records/19141133

コード:https://github.com/DepthMuun/gfn

モデル:https://huggingface.co/DepthMuun

submitted by /u/janxhg27
[link] [comments]

広告