[R] 3,000パラメータのモデルを長さ20のXOR系列で学習させたら、長さ1,000,000まで完全に外挿できました。なぜそれが、アーキテクチャ上の重要性につながると思うのか

Reddit r/MachineLearning / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、注意機構を用いない系列モデリング手法であるGeometric Flow Networks（GFN）を提案している。ここでは計算を幾何学的多様体上での粒子の流れとして捉え、入力は状態を置き換えるのではなく軌道を摂動させる。
3,164パラメータのGeodesic State Space Model（G-SSM）が、長さL=20のときXORのパリティを累積的に学習し、200ステップ未満の学習でL=1,000,000へ100%の精度で外挿できると報告されている。これは統計的相関ではなく、構造的な不変量（円環状対称性）を学習する枠組みとして位置づけられている。
同じ幾何学的パラダイムに基づくMulti-Needle-in-a-Haystackモデル（8,109パラメータ）は、K=2の針に対してL=32,000まで100%の精度かつ誤検出0%を維持し、K=3では決定論的で追跡可能な失敗挙動を示す。
Inertial State Network（ISN）の変種は、TinyShakespeareで文字レベルのパープレキシティ2.48を達成し、文脈長にかかわらず推論状態を一定サイズ（2.00 KB）に保てると報告されている。ただし、学習時の長さ（L=128）を超えると首尾一貫性が低下し、スケールに起因する制約が示唆される。
記事では、KVキャッシュなしでO(1)の状態メモリを実現すること、そして決定論的な失敗モードと幾何学的な帰納バイアスを重視している。構造に根ざしたアーキテクチャが、相関ベースの手法に対する前進の道なのかどうか、議論を呼びかけている。

私は、注意（attention）ベースの系列モデリングに代わるものとして、幾何学的フローネットワーク（Geometric Flow Networks: GFN） と呼んでいる仕組みに取り組んでいます。中核となる考え方は、系列に対して統計的な相関を計算する代わりに、計算を入力が状態を置き換えるのではなく、軌跡を曲げる擾乱として働くような幾何学多様体（マニフォールド）を粒子が流れていくものとして扱うことです。これにより、次の3つの理論的性質が得られます。文脈長に依存しないO(1)の状態メモリ（KV-cacheなし）、統計的パターンではなく構造的な不変量を学習することへの帰納バイアス、そして確率的というより幾何学的に追跡可能な決定論的な失敗モードです。

統計的にごまかせない結果：

測地線（ジオデシック）状態空間モデル （G-SSM）で、3,164パラメータ、長さL=20の累積XOR系列で学習させたところ、200ステップ未満の学習で、長さL=1,000,000の系列に対して100%の精度を達成しました。これは補間（interpolation）ではありません。モデルはパターンではなく、偶奇性保存（パリティ保存）のトーラス対称性を学習したのです。

同様に、8,109パラメータのマルチ・ニードル・イン・ア・ヘイスタック（Multi-Needle-in-a-Haystack）モデルでは、K=2本のニードルをL=64で学習した結果、L=32,000まで100%の精度と0%の誤検出率を維持します。K=3本のニードルでは2本目のニードルで発火します。学習した幾何学と整合する、決定論的で追跡可能な失敗であり、確率的なものではありません。なお、L=32,000を超えて形式的には検証していないものの、同じトーラス不変構造はL=1,000,000を超える理論的な外挿も示唆しています。

慣性状態ネットワーク（ISN）の実装（同じパラダイムの別アーキテクチャ）では、363kパラメータのTinyShakespeareに対してキャラクターレベルのパープレキシティが2.48となり、推論時の状態のメモリは文脈長に関係なく厳密に一定で2.00 KBです。正直な注意点として、ISNはL=128でのみ学習されているため、より長い系列ではコヒーレンスを失い、ダッシュをピリオドやカンマに置き換えてしまいます。これらは学習スケールに結びついた既知の制限であり、アーキテクチャそのものの問題ではありません。

すべての実験はGTX 1650（4GB VRAM）で実行しました。コードとモデルは公開されています。

私は次の3つの観点で議論したいです：

技術的な質問：構造的な不変量を学習するために幾何学的空間を変形する、物理的に根拠のあるアーキテクチャは前進の道なのか、それとも統計的な相関だけで本質的に十分なのか？（そして先回りして明白な比較について：G-SSMはMamba/S4や一次のSSMと異なり、G-SSMは第二次で、シンプレクティック積分（symplectic integration）を用い、エネルギー保存を行い、トポロジーが可変（トーラス、ユークリッドなど）で、低ランクのクリストッフェル行列を持ちます。単なる学習されたゲーティング関数ではありません。）
cs.LGでのArXivの後押し。もし、その分野の研究者の誰かがZenodoの論文を、裏付けとして十分に厳密だと判断してくれているなら、その旨を教えてください。
研究への貢献や、アーキテクチャの実験に興味があるなら、すべてのコードはApache 2.0のライセンスです。お気軽に直接連絡してください。

論文：https://zenodo.org/records/19141133

コード：https://github.com/DepthMuun/gfn

モデル：https://huggingface.co/DepthMuun

submitted by /u/janxhg27
[link] [comments]