State Stream Transformer(SST)V2:潜在空間の推論のための非線形リカレンスの並列学習

arXiv cs.LG / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • State Stream Transformer(SST)V2は、各トークン位置ごとに潜在的な推論文脈を作り直すのではなく、豊かな潜在残差ストリームを位置間で保持してストリーミングすることで、パラメータ効率の高い推論を実現する方法を提案しています。
  • SST V2では、各デコーダ層内でFFN駆動の非線形リカレンスを導入し、学習された水平ブレンドにより潜在状態を系列全体にわたって伝播させ、推論時には追加のFLOPsで「熟考(deliberation)」を行えるようにしています。
  • 本稿は、リカレンスが生む本来の逐次依存を解消するために、二段(two-pass)の並列学習手順を提示し、計算効率の高いトレーニングを可能にしています。
  • 27Bバックボーンに、GSM8K例のみの小規模データセットで共同学習した結果、外部分布のGPQA-Diamondで+15.15ポイントの向上と、GSM8Kの残り誤りを46%削減し、改善がスケールやデータ量ではなくアーキテクチャ機構に起因することを示唆しています。
  • 分析とプロービングにより、潜在状態の探索が連続潜在空間における異なる「意味バシン」をまたいで遷移し、さらに最初の生成トークン位置の時点で、後続位置で追加の潜在計算を行った際に最終回答が維持されるか破綻するかを予測できることが示されています。

要旨: 現在のコンテキスト変換器(カレント・トランスフォーマー)は、位置間で豊かな潜在残差ストリームを捨ててしまい、各新しい位置ごとに潜在的な推論コンテキストを再構成することで、潜在的な推論能力が十分に活用されない状態になっています。State Stream Transformer(SST)V2 は、各デコーダ層における FFN 駆動の非線形再帰によって、連続的な潜在空間でのパラメータ効率の高い推論を可能にします。このとき、学習されたブレンドにより潜在状態を全シーケンスにわたって横方向にストリーミングします。同じ仕組みにより、推論時には各位置ごとの連続的な潜在的熟慮(deliberation)が支えられ、トークンを確定する前に抽象的な推論を探索するための追加の FLOPs を割り当てます。2 パスの並列学習手続きにより、再帰の逐次的な依存関係が解消され、計算効率の高い学習が可能になります。隠れ状態の分析から、状態ストリームが連続的な潜在空間における異なる意味的バシンの探索を通じて推論を促進することが示されます。内容に依存した位置での遷移は、モデルを実質的に異なるベイズ事後分布へと移行させ、将来の位置における潜在空間へ直接的に影響します。また、学習済みプローブにより、生成される最初のトークン位置では、以降の各位置で追加の潜在計算を行ったときに最終的な答えが維持されるか、それとも破綻するかを、潜在状態がすでに予測していることも分かりました。GSM8K の例からなる小規模データセットのみを用いて、既存の 27B バックボーンに共同学習させることで、SST は、アウト・オブ・ディストリビューションの GPQA-Diamond において、微調整に一致させたベースラインに対して +15.15 ポイントの向上を達成し、同じベースラインの残りの GSM8K における誤りを 46% 削減します。これらは、推論の改善がスケールや学習データではなく、アーキテクチャ上の仕組みに起因することを示しています。GPQA-Diamond では、この結果得られた 27B SST は、25 倍まで大きい open-weight モデルを含む、いくつかのより大きな open-weight および独自(プロプライエタリ)のシステムよりも高い精度も達成しています。