要約: 拡散型大規模言語モデル (dLLMs) は反復的なデノイズ除去を介してテキストを生成しますが、多段の推論では一貫して性能が低いです。私たちはこのギャップが協調の問題に起因すると仮説します。ARモデルはトークンごとに一貫性を構築しますが、拡散モデルはすべての位置を同時に調整しなければなりません。訓練不要の手法であるプラン条件付けを提案します。これはARモデルからの短い(約100トークン程度)の自然言語の計画を拡散モデルのプロンプトの前に付与する方法です。その計画は凍結された足場として機能します — 最初のデノイズステップから各トークン位置が注意を向けられる、グローバルに可視な文脈として機能します。
GSM8Kでは、プラン条件付けは LLaDA-8B-Instruct を 75.6% から 87.2% に改善し(+11.6ポイント)、同じサイズの AR モデル(LLaMA 3.1 8B、87.7%)に匹敵します。基準値は6.4ポイント低いにもかかわらず。
HumanEval では、利益は +12.8ポイント(37.2% から 50.0%)で、プランがコードにも一般化することを示しています。 同じ計画は GSM8K で LLaMA による改善をわずか +5.7ポイント、HumanEval で +1.3ポイントに留め、拡散モデルは 2〜10 倍以上の利益を得ることから、協調問題仮説を支持します。 5つのランダムシードにわたって、プラン条件付けされた GSM8K の正確さは標準偏差ゼロとなり、拡散推論は非常に安定しています。 アブレーション実験は、モデルが計画戦略に従うことを示します(誤った戦略のプランは -16.3ポイントを引き起こします)が、計画値にはロバストであり(摂動された数値: -1.1ポイント)、プランナーの品質には鋭い閾値があることがわかります。小さな Llama-class プランは性能を損ない (-1.6 から -6.8pp)、一方でフロンティアプランは全体のリフトを提供します。 アテンション分析はこの機構を裏付けます:プラン・トークンは初期のデノイズ時に 1.8 倍の過剰アテンションを受け、完成トークンが確定するにつれて均一化します。 プラン条件付けには問題1問あたり約$0.002のコストがかかり、約2秒のレイテンシを追加します。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
