私は、注意(attention)ベースの系列モデリングに代わるものとして、幾何学的フローネットワーク(Geometric Flow Networks: GFN) と呼んでいる仕組みに取り組んでいます。中核となる考え方は、系列に対して統計的な相関を計算する代わりに、計算を入力が状態を置き換えるのではなく、軌跡を曲げる擾乱として働くような幾何学多様体(マニフォールド)を粒子が流れていくものとして扱うことです。これにより、次の3つの理論的性質が得られます。文脈長に依存しないO(1)の状態メモリ(KV-cacheなし)、統計的パターンではなく構造的な不変量を学習することへの帰納バイアス、そして確率的というより幾何学的に追跡可能な決定論的な失敗モードです。
統計的にごまかせない結果:
測地線(ジオデシック)状態空間モデル (G-SSM)で、3,164パラメータ、長さL=20の累積XOR系列で学習させたところ、200ステップ未満の学習で、長さL=1,000,000の系列に対して100%の精度を達成しました。これは補間(interpolation)ではありません。モデルはパターンではなく、偶奇性保存(パリティ保存)のトーラス対称性を学習したのです。
同様に、8,109パラメータのマルチ・ニードル・イン・ア・ヘイスタック(Multi-Needle-in-a-Haystack)モデルでは、K=2本のニードルをL=64で学習した結果、L=32,000まで100%の精度と0%の誤検出率を維持します。K=3本のニードルでは2本目のニードルで発火します。学習した幾何学と整合する、決定論的で追跡可能な失敗であり、確率的なものではありません。なお、L=32,000を超えて形式的には検証していないものの、同じトーラス不変構造はL=1,000,000を超える理論的な外挿も示唆しています。
慣性状態ネットワーク(ISN)の実装(同じパラダイムの別アーキテクチャ)では、363kパラメータのTinyShakespeareに対してキャラクターレベルのパープレキシティが2.48となり、推論時の状態のメモリは文脈長に関係なく厳密に一定で2.00 KBです。正直な注意点として、ISNはL=128でのみ学習されているため、より長い系列ではコヒーレンスを失い、ダッシュをピリオドやカンマに置き換えてしまいます。これらは学習スケールに結びついた既知の制限であり、アーキテクチャそのものの問題ではありません。
すべての実験はGTX 1650(4GB VRAM)で実行しました。コードとモデルは公開されています。
私は次の3つの観点で議論したいです:
- 技術的な質問:構造的な不変量を学習するために幾何学的空間を変形する、物理的に根拠のあるアーキテクチャは前進の道なのか、それとも統計的な相関だけで本質的に十分なのか?(そして先回りして明白な比較について:G-SSMはMamba/S4や一次のSSMと異なり、G-SSMは第二次で、シンプレクティック積分(symplectic integration)を用い、エネルギー保存を行い、トポロジーが可変(トーラス、ユークリッドなど)で、低ランクのクリストッフェル行列を持ちます。単なる学習されたゲーティング関数ではありません。)
- cs.LGでのArXivの後押し。もし、その分野の研究者の誰かがZenodoの論文を、裏付けとして十分に厳密だと判断してくれているなら、その旨を教えてください。
- 研究への貢献や、アーキテクチャの実験に興味があるなら、すべてのコードはApache 2.0のライセンスです。お気軽に直接連絡してください。
論文:https://zenodo.org/records/19141133
[link] [comments]



