AI Navigate

先に思考、速く拡散させる: 自己回帰プラン条件付けによる拡散型言語モデルの推論改善

arXiv cs.AI / 2026/3/17

📰 ニュースModels & Research

要点

  • プラン条件付けは、自己回帰モデルからの約100トークンの自然言語プランを拡散モデルのプロンプトの先頭に付加し、凍結された全体に可視な足場を作成する。これにより初期のデノイジングステップから全てのトークン位置がその足場に参照できる。
  • GSM8K では、LLaDA-8B-Instruct が 75.6% から 87.2% に改善し、LLaMA 3.1 8B(87.7%)と同等となり、ベースラインよりもはるかに大きなゲインを示す。HumanEval では精度が 37.2% から 50.0% に向上し、方法がコードにも一般化することを示す。
  • 拡散モデルは自己回帰ベースラインよりプラン条件付けによる利得を 2〜10 倍獲得し、協調問題仮説を支持する。アブレーションでは、誤ったプランは性能を妨げる(-16.3ポイント)、プラン値を攪乱しても影響は小さい(-1.1ポイント)、プラン品質には効果の鋭い閾値がある。アテンション分析では、プラントークンがデノイジング初期に 1.8 倍の過剰注目を受けるが、完成トークンが定着するにつれて正規化される。
  • プラン条件付けは問題あたり約 $0.002、追加レイテンシ約 2 秒。GSM8K の 5 つのランダムシードでの評価では、精度の標準偏差がゼロとなり、拡散推論が非常に安定していることを示す。

要約: 拡散型大規模言語モデル (dLLMs) は反復的なデノイズ除去を介してテキストを生成しますが、多段の推論では一貫して性能が低いです。私たちはこのギャップが協調の問題に起因すると仮説します。ARモデルはトークンごとに一貫性を構築しますが、拡散モデルはすべての位置を同時に調整しなければなりません。訓練不要の手法であるプラン条件付けを提案します。これはARモデルからの短い(約100トークン程度)の自然言語の計画を拡散モデルのプロンプトの前に付与する方法です。その計画は凍結された足場として機能します — 最初のデノイズステップから各トークン位置が注意を向けられる、グローバルに可視な文脈として機能します。

GSM8Kでは、プラン条件付けは LLaDA-8B-Instruct を 75.6% から 87.2% に改善し(+11.6ポイント)、同じサイズの AR モデル(LLaMA 3.1 8B、87.7%)に匹敵します。基準値は6.4ポイント低いにもかかわらず。

HumanEval では、利益は +12.8ポイント(37.2% から 50.0%)で、プランがコードにも一般化することを示しています。 同じ計画は GSM8K で LLaMA による改善をわずか +5.7ポイント、HumanEval で +1.3ポイントに留め、拡散モデルは 2〜10 倍以上の利益を得ることから、協調問題仮説を支持します。 5つのランダムシードにわたって、プラン条件付けされた GSM8K の正確さは標準偏差ゼロとなり、拡散推論は非常に安定しています。 アブレーション実験は、モデルが計画戦略に従うことを示します(誤った戦略のプランは -16.3ポイントを引き起こします)が、計画値にはロバストであり(摂動された数値: -1.1ポイント)、プランナーの品質には鋭い閾値があることがわかります。小さな Llama-class プランは性能を損ない (-1.6 から -6.8pp)、一方でフロンティアプランは全体のリフトを提供します。 アテンション分析はこの機構を裏付けます:プラン・トークンは初期のデノイズ時に 1.8 倍の過剰アテンションを受け、完成トークンが確定するにつれて均一化します。 プラン条件付けには問題1問あたり約$0.002のコストがかかり、約2秒のレイテンシを追加します。