Abstract
整数の掛け算は、神経ネットワークにとって長い間難しい問題だと考えられてきました。この難しさは、繰り上がり(carry)連鎖によって引き起こされる O(n) の長距離依存に広く起因するとされています。我々は、この診断は誤りであると主張します。長距離依存は掛け算の本質的な性質ではなく、計算上の時空間(computational spacetime)の選択によって生み出される幻影(mirage)です。我々は幻影の概念を形式化し、構成的な証明を示します。2つの n ビットの二進整数を 2D の外積(outer-product)グリッドとして配置すると、長い(long)掛け算のあらゆる手順が 3 \times 3 の局所近傍操作へと崩壊(collapses)します。この表現のもとでは、321 個の学習可能パラメータのみを持つニューラルセルラーオートマトンが、学習範囲の最大 683\times までの完全な長さ一般化を達成します。Transformer(6,625 パラメータ)、Transformer+RoPE、Mamba を含む5つの代替アーキテクチャはいずれも、同じ表現のもとでは失敗します。さらに、部分的な成功がコミュニティを誤った診断へと固定してしまった経緯を分析し、長距離依存を必要とする、と診断されるいかなる課題についても、まずその依存が課題に本質的なのか、それとも計算上の時空間によって誘発されたものなのかを検討すべきだと論じます。