「モデルは知っている、デコーダは見つける」未来価値に導かれるパーティクル・パワー・サンプリング

arXiv cs.AI / 2026/5/5

📰 ニュースModels & Research

共有:

要点

この論文は「学習なしの推論」でよく起きる課題として、ベースLLMは正しい多段解に対して非自明な確率質量をすでに持っている一方で、推論時にそのモードを効率よく見つけることがボトルネックになる点を扱います。
Auxiliary Particle Power Sampling（APPS）を提案し、p_theta(x)^alpha（alpha>1）に比例する系列レベルのパワー目標を、上限付きのパーティクル数でブロック単位・並列に近似します。
APPSは、提案に対する補正付きのパワー再重み付けと、リサンプリング境界での未来価値に導かれた選択を用いて、単一の展開経路に固執せずに競合するプレフィックスへ計算資源を配分します。
未来価値の推定は短いホライズンのロールアウトで行う実装に加え、軽量な学習済み選択ヘッドでロールアウトを置き換える償却（amortized）版も検討します。
推論ベンチマークの実験では、APPSが学習なしデコーディングの精度と計算時間のトレードオフを改善し、推論時のパワー近似をより忠実に行うことでポスト学習モデルとの差をより回復できる可能性を示しています。