長距離依存の幻影について：整数乗算への応用

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、桁上がり（キャリー）連鎖に由来する本質的な O(n) の長距離依存があるために、整数乗算はニューラルネットワークにとって難しいという一般的な見方に異議を唱えます。
長距離依存は、「計算の表現」（“computational spacetime”）のされ方によって生じた“幻影”だと主張し、長い乗算を局所的に扱える 2D の外積グリッドを提案します。
この表現を用いることで、著者らは学習可能パラメータ 321 個のみのニューラル・セルラーオートマトンが、学習範囲を 683× 超えるところまでの完全な長さ汎化を達成できることを示します。
同じ表現の下で、いくつかの代替アーキテクチャ（RoPE の有無を含む Transformer や Mamba）は、同様の結果を得られません。
本研究は、長距離依存が必要だと疑われるタスクについて、研究者はタスク本来の構造と、表現に起因するアーティファクト（見かけ上の要因）を区別すべきだと示唆しています。

Abstract

整数の掛け算は、神経ネットワークにとって長い間難しい問題だと考えられてきました。この難しさは、繰り上がり（carry）連鎖によって引き起こされる O(n) の長距離依存に広く起因するとされています。我々は、この診断は誤りであると主張します。長距離依存は掛け算の本質的な性質ではなく、計算上の時空間（computational spacetime）の選択によって生み出される幻影（mirage）です。我々は幻影の概念を形式化し、構成的な証明を示します。2つの n ビットの二進整数を 2D の外積（outer-product）グリッドとして配置すると、長い（long）掛け算のあらゆる手順が

3 \times 3

の局所近傍操作へと崩壊（collapses）します。この表現のもとでは、321 個の学習可能パラメータのみを持つニューラルセルラーオートマトンが、学習範囲の最大

683\times

までの完全な長さ一般化を達成します。Transformer（6,625 パラメータ）、Transformer+RoPE、Mamba を含む5つの代替アーキテクチャはいずれも、同じ表現のもとでは失敗します。さらに、部分的な成功がコミュニティを誤った診断へと固定してしまった経緯を分析し、長距離依存を必要とする、と診断されるいかなる課題についても、まずその依存が課題に本質的なのか、それとも計算上の時空間によって誘発されたものなのかを検討すべきだと論じます。