ループ型トランスフォーマーにおける安定性と一般化

arXiv cs.LG / 2026/4/17

📰 ニュースModels & Research

共有:

要点

この論文は、ループ型トランスフォーマーがテスト時により難しい入力へ一般化できるかどうかを、固定点解析の枠組みで見極める方法を提案する。
著者らは安定性を「到達可能性」「入力依存性」「幾何」による3つの観点で分析し、固定点反復が意味のある予測を生む条件を理論的に示す。
さらに、リコール（recall）を伴わないループ型ネットワークは固定点が可算個に限られ、スペクトル領域のどこでも強い入力依存性を達成できないことを証明し、外挿能力の制約を明らかにする。
リコールとアウタ正規化（outer normalization）を組み合わせることで、固定点が到達可能であり、入力に対して局所的に滑らかで、かつ安定した逆伝播を支えるレジームが得られることを示す。
実験（チェス、数独、プレフィックス和）では、下流タスクの性能が枠組みの予測と整合し、さらに「内部リコール（internal recall）」という新しい配置変種が、アウタ正規化適用時に標準のリコール配置を上回ることを報告する。

Abstract

巡回（ループ）型トランスフォーマーは、難しい問題に対してより多くの反復を費やすことで、テスト時計算量のスケーリングを実現すると期待されていますが、訓練時に固有の解を記憶するのではなく、テスト時により難しい問題へ外挿できるようにする建築上の選択が何かは依然として不明です。私たちは、巡回アーキテクチャを安定性の3つの軸――到達可能性（reachability）、入力依存性（input-dependence）、幾何（geometry）――に沿って解析するための固定点（fixed-point）ベースの枠組みを導入し、それを用いて、固定点反復が意味のある予測をもたらすのがいつなのかを特徴づけます。理論的には、想起（recall）を伴わないループドネットワークは可算個の固定点しか持たず、いかなるスペクトル領域でも強い入力依存性を達成できないことを証明します。一方で、想起を外側の正規化（outer normalization）と組み合わせると、固定点が同時に到達可能であり、入力に対して局所的に滑らかで、かつ安定な逆伝播（backpropagation）によって支えられる領域が確実に得られることを示します。実験的には、チェス、数独、プレフィックス和（prefix-sums）に対して単層の巡回トランスフォーマーを訓練し、下流タスクの性能が、枠組みの予測とタスクおよびアーキテクチャ構成の双方にわたって追随することを見出します。さらに、想起の内部配置（internal recall）という新しい想起配置のバリアントを導入し、外側の正規化を適用すると、想起の標準的な配置（-- standard recall placement）に比べて、数独では同等以上、そして（-- における）スコア面でも大幅に優れることを示します。