推測デコーディングにおける認知領域間の受容ダイナミクス
arXiv cs.AI / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、ツリー型推測デコーディングにおいて、タスクの「認知領域」がLLM推論の受容(acceptance)ダイナミクスにどう影響するかを実験的に調査する。
- TinyLlama-1.1Bをドラフトモデル、Llama-2-7B-Chat-GPTQをターゲットモデルとして、コード生成・数学的推論・論理的推論・オープンエンドなチャットの4領域で、200プロンプトから99,768個の推測ノードを分析する。
- タスクの種類は、ツリ—深さよりも受容確率をより強く予測することが示され、さらに「チャット領域」だけが期待される受容長が各ステップで一貫して1.0トークンを超える。
- エントロピーと受容の相関は全領域で負であるものの弱く(rhoは-0.20〜-0.15程度)、チャットはエントロピーが最も高いにもかかわらず受容率も最も高いという直感に反する結果が得られる。
- これらの知見は、領域に応じた推測予算(speculation budgets)や、タスク種別に合わせたドラフトモデル選定への実用的な示唆を与える。




