要旨: 算術ベンチマークはしばしば、単一のホールドアウト得点に還元されますが、その得点は質的に異なる失敗を混同し得ます。私たちは、網羅的な2桁加算で学習された制御された最小限のGPTを研究し、そこではすべての局所的な桁の遷移がすでに学習データに含まれている一方で、なぜ3桁の一般化がそれでも失敗するのかを問いかけます。この失敗は段階的です。まず、レイアウトの障壁があります。学習された絶対位置モデルは、純粋な3桁のレイアウトずれに対して崩壊し、これに対して実質的に障壁を弱める介入は、混合レイアウトの露出のみです。次に、レイアウト修復の後では、百の位置は意味的な「百の桁」というよりも、キャリー(繰り上がり)フラグのように振る舞います。特定のキャリー・プローブは、関連するロジットの余裕(マージン)を反転させますが、対応する追加データによる対照実験ではそうなりません。第三に、キャリー修復の後に残る主なボトルネックは、条件付きの再構成(conditional recomposition)です。高条件づけされた末尾(tail)のデータは、対応する対照、全体を高のみとしたデータ、末尾のみのデータのいずれよりも、すべての真の3桁スイートで優れています。そして同じ順序関係は、より大きな2層ブリッジ実験でも再び現れます。再構成の後に残る誤りは、その後ほぼ「十の桁のみ」に偏り、さらに別の10シードによる終盤段階の研究では、符号に配慮した十の修復によって、最も難しい千のキャリー・スイートでの完全一致が0.664から0.822へと上昇することが示されます。したがって私たちは、算術のOOD失敗を、レイアウト、キャリー意味論、再構成、そして終盤の十の残差という要素へと、実験的に検証可能な形で分解することを提示します。
最小GPTにおける算術OOD失敗が段階的に展開する
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、単一の算術的なホールドアウトスコアに依存すると、加法タスクにおいて質的に異なるアウト・オブ・ディストリビューション(OOD)失敗モードが隠れてしまう可能性があると主張している。
- 包括的な2桁加算で訓練した制御された最小GPTを用いて、著者らは、3桁への一般化が1つの単一的な問題ではなく、複数の段階的な破綻として失敗することを示す。
- 最初の失敗段階はレイアウト上の障壁であり、絶対位置への依存が純粋な3桁レイアウトシフトで崩壊する。これを弱める主な介入は、混合レイアウトの露出である。
- 次の段階はキャリーのセマンティクスであり、レイアウトを対処した後、百の位置は真に意味的な「百の桁」ではなく、キャリーフラグのように振る舞う。これは、狙いを定めたキャリープローブによって裏付けられている。
- 最終段階では、条件付きの再構成と残差的な十の位の誤りが関与する。さらに、符号を考慮した十の位の修復などの追加実験により、最も難しい千のキャリーのスイートでの完全一致が大幅に改善される。



