要約: 再帰的推論モデルである階層的推論モデル(HRM)および Tiny Recursive Model(TRM)などは、重みを共有する小さなネットワークが潜在状態を反復的に洗練させることにより、計算負荷の高いNPパズルを解くことができることを示す一方、トレーニングは通常、深層監督および/または長いアンロールに依存し、それが実時間コストを増加させ、モデルを中間の貪欲な挙動へ偏らせる可能性がある。私たちは Recursive Stem Model(RSM)を紹介する。これは TRM 風のバックボーンを維持しつつ、学習契約を変更してネットワークが安定した深さ依存しない遷移演算子を学習する再帰推論アプローチである。RSM は学習中に隠れ状態の履歴を完全に切り離し、初期の反復を切り離された「ウォームアップ」ステップとして扱い、最終ステップでのみ損失を適用する。我々はさらに外側の再帰深さ H と内側の計算深さ L を独立に拡大し、深さを増す際の不安定性を緩和するために外側遷移を確率的に行うスキーム(H に対する確率的深さ)を用いる。これにより、二つの重要な能力が生まれる:(i) >20\times 程度高速な学習で TRM より精度を向上させる(誤差を約 5\times 減少)、(ii) テスト時のスケーリングで推論を任意の回数の改良ステップで実行できる(約 20{,}000 H_{ ext{test}} \gg 20 H_{ ext{train}})、再学習なしで追加の「思考」を可能にする。Sudoku-Extreme では、RSM はテスト時推論で 97.5% の厳密正確さに到達し、単一の A100 で約1時間の学習で達成される、Maze-Hard(30 \times 30)では、注意機構を用いたインスタンス化を用いて約40分で約80% の厳密正確さに到達する。最後に、RSM が反復的な収束プロセスを実装するため、収束挙動は簡潔でアーキテクチャ固有の信頼性指標を提供する。収束しない軌道はモデルが実用的な解に到達していないことを警告し、幻覚の抑制につながる可能性がある。一方、安定した固定点は実務的な正確性検証のためにドメイン検証器と組み合わせて使用できる。
機能が形を決める:再帰的ステムモデル
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- RSM は TRM スタイルのバックボーンを保持しつつ、隠れ状態の履歴を切り離して深さに依存しない訓練とする再帰的推論モデルであり、初期の反復をウォームアップ段階として扱い、最終ステップでのみ損失を適用する。
- 外部再帰の深さ H と内部計算深さ L を独立して成長させることを可能にし、外部の深さに対して確率的深さを適用する方式(H に対する確率的深さ)を用いて、より深いアーキテクチャを安定化させる。
- このアプローチは TRM よりも20倍以上の学習速度を実現し、誤差率を約5倍低減する一方で、再訓練なしでテスト時に多数の追加ステップでの改良を可能にする。
- Sudoku-Extreme は単一の A100 で約1時間の訓練により97.5%の厳密正解率を達成し、Maze-Hard (30×30) はアテンション機構を用いた実装で約40分で約80%の厳密正解率を達成した。
- 反復的安定化プロセスは信頼性の指標を提供します。収束しない軌道は未解決のケースを警告し、安定した固定点は実務的な正確性検証のためにドメイン検証器と組み合わせて使用できます。




