前進一歩、後退K歩：ノイズ除去リカージョン・モデルによるより良い推論

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ループ型トランスフォーマは、同一のトランスフォーマ・ブロックを繰り返し適用することで、パラメータ数を増やさずに計算の深さを拡張し、予測を逐次的に洗練できます。
この論文は、最終的な解だけを教師として中間の洗練過程に対する監督がない場合、探索のような計算を要する難問で長い改良トラジェクトリを学習するのが難しいと述べています。
そこで提案されるのがDenoising Recursion Modelsで、学習時にノイズでデータを汚染する点は保ちつつ、単一ステップで元に戻すのではなく複数の再帰ステップで復元するように学習します。
この方針により、中間状態のカリキュラムが得られて学習と推論時の挙動がより整合し、貪欲ではない・先を見据えた生成が促されると論じています。
実験では、ARC-AGIにおいてTiny Recursion Model（TRM）よりも性能が向上したと報告され、TRMの最近のブレークスルー実績を踏まえた文脈になっています。

アブストラクト: ループ型トランスフォーマーは、共有されたトランスフォーマーブロックを繰り返し適用することで、パラメータ数を増やすことなく計算の深さを拡張でき、各ループが並列に固定サイズの予測全体を書き換えることによって反復的な洗練（iterative refinement）に用いることができます。探索のような計算を要する問題などの難しい問題では、ノイズから始めて高度に構造化された解に到達するには、長い洗練の軌跡（refinement trajectory）が必要になることがあります。学習では、目標となる解のみを指定し、中間の洗練経路に対する監督が与えられない場合、このような軌跡の学習は困難です。拡散モデルは、データを大きさの異なるノイズで汚染し、
\textit{単一ステップ}でそれを逆転させるようにモデルを学習することで、この問題に取り組みます。しかし、この過程は学習とテストの挙動を不一致にします。本研究では、同様にノイズでデータを汚染しつつ、モデルに対して
t\textit{複数}の再帰ステップにわたって汚染を逆転させるように学習させる手法として、Denoising Recursion Models（デノイジング再帰モデル）を提案します。この戦略により、中間状態のための扱いやすいカリキュラムが提供されると同時に、学習とテストの整合性がよりよく保たれ、貪欲ではない（non-greedy）かつ先を見据えた生成が促されます。大規模な実験を通じて、本アプローチがARC-AGIにおいてTiny Recursion Model（TRM）を上回ることを示します。ここでTRMは、直近で画期的な性能を達成しています。