Mamba-2 アテンション・ハイブリッドによる小規模な再帰推論

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この研究は、TRM の Transformer ブロックを Mamba-2 ハイブリッド演算子に置換しつつ、パラメータ数をほぼ同等に保つことを調査している(6.83M 対 6.86M)。
  • ARC-AGI-1 で、Mamba-2 ハイブリッドは pass@2 を 2.0パーセンテージポイント改善(45.88% 対 43.88%)し、より高い K(pass@100)で約4.75パーセンテージポイントの大きな利得を示し、pass@1 は従来通りである。
  • 結果は、ハイブリッドがスキャフォールド内の再帰推論能力を保持し、トップ1の選択を損なうことなく候補のカバレッジを増やすことを示唆している。
  • この研究は、SSMベースの演算子を再帰設計における有効な選択肢として位置づけ、再帰推論の最適な混合戦略に関する理解を深めている。

要約: 最近の再帰推論モデル TRM のような研究は、わずかなネットワーク(7M パラメータ)が潜在的再帰を介して抽象推論タスクで高い性能を発揮できることを示しています。これは、隠れ表現空間における反復的な精緻化を、中間トークンを出力せずに行うものです。これにより、演算子の選択に関する自然な疑問が生じます。Mamba-2 の状態空間再帰はそれ自体が反復的精緻化の一形態であり、再帰推論の自然な候補となります――しかし、再帰的スキャフォールドに Mamba-2 を導入して推論能力が保たれるのでしょうか。私たちは、TRM の Transformer ブロックを Mamba-2 ハイブリッド演算子に置換し、パラメータ数を揃えた状態で検証します(6.83M 対 6.86M パラメータ)。ARC-AGI-1 において、ハイブリッドは pass@2(公式指標)を +2.0%(45.88% 対 43.88%)向上させ、高い K 値で一貫して優位に立ちます(pass@100 で +4.75%)、一方で pass@1 の等価性も維持します。これは、候補のカバー範囲が改善されることを示唆します――モデルは正解の解をより安定して生成し、トップ1 の選択は同程度です。我々の結果は、Mamba-2 ハイブリッド演算子が再帰的スキャフォールド内の推論能力を保持することを検証し、SSM ベースの演算子を再帰的演算子設計空間の実用的な候補として確立し、再帰推論の最適な混合戦略を理解する第一歩を踏み出します。