要旨: 標準のマスク付き離散拡散モデルは、マスキング経路上で自分の誤りを修正できないため、推論タスクにおいて制約に直面します。固定された回数のデノイズステップに依存しているため、与えられた問題の複雑さに応じて計算を調整することができません。これらの制約に対処するため、自己の出力で訓練されたマルコフ遷移カーネルを学習する方法を導入します。この設計によりトークンを再マスクできるようになり、モデルが以前の誤りを修正することを可能にします。さらに、固定された時間スケジュールを必要とせず、訓練済みの停止基準を用います。これにより、推論問題の難易度に応じて関数評価の回数を適応させることができます。我々の適応には、2つの軽量な予測ヘッドを追加し、既存の事前学習済みモデルの再利用と微調整を可能にします。Sudoku-Extremeデータセットでは、他のフロー型手法を明確に上回り、正答率は95%です。Countdown-4 では、平均して約10ステップでほぼ96%の問題を正しく解くことができ、多くの問題はすでに2ステップで解くことができます。
離散推論のための自己認識型マルコフモデル
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、自己認識型マルコフモデルを用いた離散推論を提案する。これは、自己の出力を用いてトークンを再マスクし、以前の誤りを訂正できるマルコフ遷移カーネルを学習することによって実現される。
- 固定されたデノイジングスケジュールへの依存を排除するため、問題の難易度に応じて関数評価の回数を適応させる訓練済みの停止基準を導入する。
- 既存の事前学習済みモデルの再利用と微調整を可能にするため、軽量な予測ヘッドを2つ追加し、効率的な適応を促進する。
- Sudoku-Extreme(95%の有効性)およびCountdown-4(約10手で解く、約96%の成功率)における実証結果は、本手法が従来のフローベースのアプローチを上回ることを示している。
