多層SSMの表現力と限界について

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、状態空間モデル（SSM）の多層化が、合成（compositional）課題においてストリーミングモデルとどのように異なるかを調べ、表現力の本質的なギャップを明らかにします。
chain-of-thought（CoT）の効果を分析し、オフラインCoTは根本的には表現力を高めない一方で、オンラインCoTは大きく能力を引き上げ得ることを示します。
オンラインCoTを用いると、検討した設定において多層SSMはストリーミングアルゴリズムと同等の「力（power）」になると示されます。
幅（width）と精度（precision）のトレードオフを検討し、ベースのモデルでは両者は互換ではないが、オンラインCoTが許されると明確に等価になると結論づけます。
深さ、有限精度、CoTがSSMの「できること／できないこと」をどう規定するかを統一的に捉える枠組みを提示します。

概要: 本研究では、多層状態空間モデル（SSM）の表現力と限界を調べます。まず、多層SSMは合成（compositional）課題において根本的な制約に直面することを示し、SSMとストリーミングモデルの間に本質的なギャップがあることを明らかにします。次に、連鎖的思考（CoT）の役割を検討し、オフラインのCoTは本質的に表現力を高めない一方で、オンラインのCoTはその能力を大幅に高め得ることを示します。実際、オンラインのCoTによって、多層SSMはストリーミングアルゴリズムと同等の能力になります。最後に、幅（width）と精度（precision）の間のトレードオフを調べ、基礎モデルにおいてはこれらの資源は互いに置き換え可能ではないが、オンラインのCoTが許されると明快な同値関係が成立することを示します。全体として、本研究結果は、深さ、有限精度、そしてCoTがSSMの能力と限界をどのように形作るかについて、統一的な見方を提供します。