SpecBound: レイヤーごとの信頼度キャリブレーションを用いた適応型の有界自己推測(self-speculation)

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、基盤モデルのパラメータを変更せずに、自己推測(self-draft)による推測デコーディング手法 SpecBound を提案する。これにより、自己回帰的推論の高速化を行いながら、出力の厳密な同一性(exact output equivalence)を維持する。
  • 浅い層が過信になりやすい自己推測失敗(self-draft failures)に対処するため、早期終了(early-exit)の判断においてレイヤーごとの温度アニーリングを用い、信頼度をより適切にキャリブレートする。
  • さらに、トークン単位のデコーディング難易度に基づいて推測長(speculation length)を適応的に有界化し、難しいトークンに対する冗長な深い層の計算を減らすことで効率を向上させる。
  • SpecBound は、深い層を通した統一的な並列パス(unified parallel pass)によってドラフトトークンの隠れ状態(hidden states)を再処理し、正しさを保ちながら計算効率を改善する。
  • 実験では、長文生成タスクの多様な領域や複数のモデルアーキテクチャにおいて、標準的なデコーディングに対して最大 2.33x のウォールタイム速度向上が報告されている。