$S^3$: 拡散言語モデルにおける推論時（テスト時）向け層化スケーリング探索

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、拡散言語モデルに対するテスト時スケーリング手法としてS^3（Stratified Scaling Search）を提案し、推論計算を復元（denoising）の過程で再配分することで、末尾でbest-of-Kのみを使う場合に比べて出力品質を向上させる。
各ステップで複数の候補となる復元軌道を展開し、それらを軽量な参照不要（reference-free）検証器でスコアリングする。そして多様性を探索フロンティアに保ちながら、有望な候補を選択的に再サンプリングする。
本手法は、報酬に傾いたサンプリング分布を近似することで、高品質な出力が得られる確率を高めつつ、元のモデルの事前分布（prior）に基づいた制約を維持する。
LLaDA-8B-Instructを用いたMATH-500、GSM8K、ARC-Challenge、TruthfulQAでの実験により、基盤モデルやデコードスケジュールを変更することなく一貫した改善が確認される。特に数学的推論タスクで最大の向上が見られる。
これらの結果は、復元軌道に対する古典的な検証器ガイド付き探索が、拡散言語モデルにおけるテスト時スケーリングの実用的な仕組みであることを示唆している。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH