トランスフォーマーによる普遍的推論の障壁（そしてそれを克服する方法）

arXiv cs.LG / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、連鎖的思考（CoT）を用いて学習したトランスフォーマーが、学習時に見たよりも長いCoTトレースへ一般化できるかどうかを検討し、そこが十分に研究されていない点を扱います。
標準的な位置エンコーディングと有限の語彙（アルファベット）を仮定すると、長さに一般化可能な学習可能性が求められる場合、CoTによる表現力の利得は成立せず、トランスフォーマーはTC^0を超える問題を解けないと示されます。
一方で、問題サイズに応じて語彙を拡張することを許すと、CoTトレース長がシミュレートする計算時間に対して線形に伸びる（定数倍まで）形で、チューリング機械の長さに一般化可能なシミュレーションが可能になることを示します。
提案手法は、信頼できる長さ一般化を妨げる2つの主要障壁である「繰り返しコピー」と「最後の出現の参照」を、テープ位置ごとに固有のサインポストトークンを割り当て、値の変化だけを記録してカウントからテープ状態を復元することで回避します。
さらに実験的に、サインポストトークンと値変化エンコーディングが、難しい課題での長さ一般化改善に向けた実用的な指針を与えることを示しています。

日経XTECH

日経XTECH

Reddit r/artificial

Dev.to

Dev.to